如何抓取网页数据( 如何用WebScraper选择元素的操作点击Stiemaps图解 )

优采云发布时间: 2022-03-16 13:02

　　如何抓取网页数据(

如何用WebScraper选择元素的操作点击Stiemaps图解

)

　　这是简易数据分析系列的第七部分文章。

　　在第 4 部分文章中，我解释了如何从单个网页中抓取单一类型的信息；

　　在第 5 部分文章，我解释了如何从多个网页中抓取单一类型的信息；

　　今天我们要讲的是如何从多个网页爬取多种类型的信息。

　　本次爬取是在简单数据分析05的基础上进行的，所以我们从一开始就解决了多网页的爬取问题，接下来我们将重点介绍如何爬取多类信息。

　　在练习之前先理清逻辑：

　　最后几篇文章只捕捉了一种元素：电影标题。本期我们将抓取各种元素：排名、片名、收视率、一句话影评。

　　根据Web Scraper的特性，如果要抓取多类数据，必须先抓取包装多类数据的容器，然后选择容器中的数据，这样才能抓取正确。让我画个图来演示：

　　我们需要先抓取多个容器，然后抓取容器中的元素：序号、电影名、评分和一句话影评。当爬虫运行完毕，我们就成功抓取到数据了。

　　概念清楚了，我们可以谈谈实际操作。

　　如果您对以下操作有任何疑问，可以阅读简单数据分析04的内容，其中文章详细介绍了如何使用Web Scraper进行元素选择

　　1.点击Stiemaps，在新面板中点击ID为top250的这一列数据

　　2.删除旧选择器，点击添加新选择器，添加新选择器

　　3.在新的选择器中，注意将Type类型改为Element（元素），因为在Web Scraper中，只有元素类型可以收录多个内容。

　　我们检查的元素区域如下图所示。确认无误后，点击保存选择器按钮，返回上一个操作面板。

　　在新面板中，单击您刚刚创建的选择器的数据行：

　　点击后，我们会进入一个新的面板。根据导航，我们可以知道它在容器内。

　　在新建面板中，我们点击Add new selector，新建一个选择器来抓取电影名称，类型为Text，值得注意的是因为我们在容器中选择文本，所以一个容器中只有一个电影名称，如果选择多个，请不要检查，否则捕获会失败。

　　当你选择电影名称时，你会发现容器以*敏*感*词*突出显示，我们只是选择*敏*感*词*区域中的电影名称。

　　点击保存选择器保存选择器后，我们会再创建三个选择器，分别选择编号、评分和一句话影评。因为操作和上面一模一样，这里就不解释了。

　　排名：

　　评分：

　　一句话点评：

　　我们可以观察我们在面板中选择的多个元素。总共有四个要素：姓名、编号、分数和评论。类型均为Text，无需多选。父选择器都是容器。

　　我们可以点击Stiemap top250下的选择器图，查看我们爬虫选择的元素的层级关系。确认无误后，我们点击Stiemap top250下的Selectors，返回选择器显示面板。

　　下图是我们这次爬虫的层级关系。和我们之前的理论分析一样吗？

　　确认选择正确后，我们就可以抓取数据了。该操作在简单数据分析04和简单数据分析05中已经提到过，忘记的可以复习旧文。下图是我抓取的数据：

　　还是和之前一样，数据是乱序的，不过这个没关系，因为排序属于数据清洗的内容，我们现在的话题是数据抓取。先完成相关知识点，再攻克下一个知识点，才是比较合理的学习方式。

　　今天的内容其实挺多的。你可以先消化一下。在下一篇文章中，我们将讨论如何抓取点击“Load More”加载数据的网页内容。

0

2022-03-16

如何抓取网页数据

0 个评论

要回复文章请先登录或注册