如何抓取网页数据(让我们看一下Steam社区GrantTheftAutoVReviews的网页)

优采云 发布时间: 2022-03-16 04:07

  如何抓取网页数据(让我们看一下Steam社区GrantTheftAutoVReviews的网页)

  让我们看一下 Steam 社区 Grant Theft Auto V 评测的网页。您会注意到网页的全部内容不会一次性加载。

  我们需要向下滚动以在网页上加载更多内容。这是 网站 后端开发人员使用的一种称为“延迟加载”的优化技术。

  但问题在于,当我们尝试从该页面抓取数据时,我们只能获得该页面的有限内容:

  一些 网站 还创建了“加载更多”按钮,而不是无休止的滚动想法。只有当您单击按钮时,它才会加载更多内容。内容有限的问题依然存在。那么让我们看看如何爬取这些页面。

  导航到目标 URL 并打开 Inspect Element Network 窗口。接下来,点击重新加载按钮,它会为您记录网络,如图像加载的顺序、API 请求、POST 请求等。

  清除当前记录并向下滚动。您会注意到,当您向下滚动时,页面正在发送更多数据请求:

  

  进一步滚动,您将看到 网站 如何发出请求。查看以下 URL - 只有一些参数值在更改,您可以使用简单的 Python 代码轻松生成:

  

  您需要按照相同的步骤逐页向每个页面发送请求来获取和存储数据。

  尾注

  这是使用强大的 BeautifulSoup 库在 Python 中进行网络抓取的简单且适合初学者的介绍。老实说,当我在寻找新项目或需要现有项目的信息时,我发现网络抓取非常有用。

  注意:如果您想以更结构化的形式学习本教程,我们有一个免费课程,我们将在其中教授网页抓取 BeatifulSoup。您可以在此处查看 - Python 网络爬虫简介。

  如前所述,还有其他库可用于执行网页抓取。我很想听听您对首选库的看法(即使您使用 R!),以及您对该主题的体验。请在下面的评论部分告诉我,我们会尽快回复您!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线