如何抓取网页数据( 如何用WebScraper选择元素的操作点击Stiemaps图解 )

优采云发布时间: 2022-02-20 08:07

　　如何抓取网页数据(

如何用WebScraper选择元素的操作点击Stiemaps图解

)

　　这是简易数据分析系列文章的第七部分。

　　在第 4 部分文章中，我解释了如何在单个网页中抓取单一类型的信息；

　　在第 5 部分文章中，我解释了如何从多个网页中抓取单一类型的信息；

　　我们今天要讲的是如何从多个网页中爬取多种类型的信息。

　　这次爬取是在简单数据分析05的基础上进行的，所以我们从一开始就解决了爬取多个网页的问题，接下来我们将重点介绍如何爬取多类信息。

　　练习之前先理清逻辑：

　　最后几篇文章只抓住了一种元素：电影的标题。本期我们将抓取多种元素：排名、片名、收视率、一句话影评。

　　根据Web Scraper的特性，如果要抓取多类数据，首先要抓取包装多类数据的容器，然后选择容器中的数据，这样才能正确抓取。我画了一张图来演示：

　　我们首先需要抓取多个容器，然后抓取容器中的元素：序号、电影名、评分、一句话影评。当爬虫完成运行后，我们就成功抓取了数据。

　　概念清楚后，我们就可以谈实际操作了。

　　如果您对以下操作有任何疑问，可以阅读简单数据分析04的内容，该文章文章详细说明了如何使用Web Scraper选择元素

　　1.点击 Stiemaps 并在新面板中点击 ID 为 top250 的这一列数据

　　2.删除旧选择器，点击添加新选择器添加新选择器

　　3.在新的选择器中，注意将Type改为Element（元素），因为在Web Scraper中，只有元素类型可以收录多个内容。

　　我们检查的元素区域如下图所示。确认无误后，点击保存选择器按钮，返回上一操作面板。

　　在新面板中，单击您刚刚创建的选择器的数据行：

　　点击后，我们将进入一个新的面板。根据导航，我们知道它在容器内部。

　　在新建面板中，我们点击添加新选择器，新建一个选择器来捕捉电影名称，类型为Text，值得注意的是因为我们选择容器中的文本，所以一个容器中只有一个电影名称，所以不要勾选多选，否则捕获会失败。

　　当你选择电影名称时，你会发现容器以*敏*感*词*突出显示，我们只是在*敏*感*词*区域选择电影名称。

　　点击保存选择器保存选择器后，我们再创建三个选择器，分别选择编号、评分和一句话影评。因为操作和上面一模一样，这里就省略解释了。

　　排名号：

　　分数：

　　一句话点评：

　　我们可以观察到我们在面板中选择的多个元素。总共有四个要素：姓名、编号、分数和评论。类型均为Text，无需多选。父选择器都是容器。

　　我们可以点击 Stiemap top250 下的选择器图，查看我们爬虫选择的元素的层次关系。确认无误后，我们点击Stiemap top250下的Selectors，返回选择器显示面板。

　　下图是我们这次爬虫的层级关系。和我们之前的理论分析一样吗？

　　确认选择无误后，我们就可以抓取数据了。该操作在简单数据分析04和简单数据分析05中已经提到过，忘记的可以复习旧文。以下是我抓取的数据：

　　还是和之前一样，数据是乱序的，不过这个没关系，因为排序属于数据清洗的内容，我们现在的话题是数据抓取。先完成相关知识点，再攻克下一个知识点，是比较合理的学习方式。

　　其实今天还是有很多内容的。你可以先消化一下。在下一篇文章中，我们将讨论如何抓取点击“Load More”加载数据的网页内容。

0

2022-02-20

如何抓取网页数据

0 个评论

要回复文章请先登录或注册