网页表格抓取(第5步中显示的方法中完成的显示方法介绍)

优采云 发布时间: 2022-01-06 20:09

  网页表格抓取(第5步中显示的方法中完成的显示方法介绍)

  ,

  ,等待。您可以使用“//”,然后使用标签名称来调用第一个。例如“// div”、“// a”或“// span”。现在,如果你真的想得到“Some Text Here”,你需要调用课程。这是在步骤 5 中显示的方法中完成的。您会注意到它使用了“// div”和“[@class =“这里是类名”] 的组合。xml 字符串是“// div [@class ='list-card__body']" 你可能想要获取另一个数据值。我们想要获取所有的 URL。这种情况会涉及到想要提取第一个 HTML 标签本身内部的特定值。例如,点击这里。然后就像 step 7.xml字符串为“//a/@href”ImportXML(URL, XML string)ImportXML(“”,“//div[@class='list-card__body']”)

  使用此功能的事实是它需要花费大量时间。因此,它需要规划和设计一个好的谷歌工作表,以确保您从使用中获得最大的收益。否则,您的团队最终将花时间维护它而不是研究新事物。像下面的图片

  

  来自 xkcd

  使用 ImportHTML 进行网页抓取

  最后,我们将讨论 ImportHTML。这将从网页导入表格或列表。例如,如果您想从 网站 获取收录股票价格的数据,该怎么办。

  我们会用。此页面上有一张表格,其中收录过去几天的股票价格。

  与过去的功能类似,您需要使用一个 URL。在 URL 的顶部,您必须提及要在页面上抓取的表格。您可以使用可能的数字来完成此操作。

  例如,ImportHTML (" ",6 )。这将从上面的链接中删除股票价格。

  在上面的视频中,我们还展示了如何将上述*敏*感*词*捕获结合到当天有关股市自动收录设备的新闻中。这可以以更复杂的方式使用。该团队可以创建一个算法,使用过去的股票价格和新的 文章 和 Twitter 信息来选择是买入还是卖出股票。

  你有什么使用网页抓取的好主意吗?您需要有关网页抓取项目的帮助吗?让我们知道!

  关于数据科学的其他精彩读物:

  什么是决策树

  算法如何变得*敏*感*词*和有偏见

  如何开发健壮的算法

  数据科学家必须具备的 4 项技能

  翻译自:

  网页抓取表单

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线