如何抓取网页数据(让我们看一下Steam社区GrantTheftAutoVReviews的网页)

优采云发布时间: 2022-03-16 04:07

　　让我们看一下 Steam 社区 Grant Theft Auto V 评测的网页。您会注意到网页的全部内容不会一次性加载。

　　我们需要向下滚动以在网页上加载更多内容。这是网站后端开发人员使用的一种称为“延迟加载”的优化技术。

　　但问题在于，当我们尝试从该页面抓取数据时，我们只能获得该页面的有限内容：

　　一些网站还创建了“加载更多”按钮，而不是无休止的滚动想法。只有当您单击按钮时，它才会加载更多内容。内容有限的问题依然存在。那么让我们看看如何爬取这些页面。

　　导航到目标 URL 并打开 Inspect Element Network 窗口。接下来，点击重新加载按钮，它会为您记录网络，如图像加载的顺序、API 请求、POST 请求等。

　　清除当前记录并向下滚动。您会注意到，当您向下滚动时，页面正在发送更多数据请求：

　　进一步滚动，您将看到网站如何发出请求。查看以下 URL - 只有一些参数值在更改，您可以使用简单的 Python 代码轻松生成：

　　您需要按照相同的步骤逐页向每个页面发送请求来获取和存储数据。

　　尾注

　　这是使用强大的 BeautifulSoup 库在 Python 中进行网络抓取的简单且适合初学者的介绍。老实说，当我在寻找新项目或需要现有项目的信息时，我发现网络抓取非常有用。

　　注意：如果您想以更结构化的形式学习本教程，我们有一个免费课程，我们将在其中教授网页抓取 BeatifulSoup。您可以在此处查看 - Python 网络爬虫简介。

　　如前所述，还有其他库可用于执行网页抓取。我很想听听您对首选库的看法（即使您使用 R！），以及您对该主题的体验。请在下面的评论部分告诉我，我们会尽快回复您！

0

2022-03-16

如何抓取网页数据

0 个评论

要回复文章请先登录或注册