如何抓取网页数据( 如何用WebScraper选择元素的操作点击Stiemaps图解 )
优采云 发布时间: 2022-03-16 13:02如何抓取网页数据(
如何用WebScraper选择元素的操作点击Stiemaps图解
)
这是简易数据分析系列的第七部分文章。
在第 4 部分文章中,我解释了如何从单个网页中抓取单一类型的信息;
在第 5 部分文章,我解释了如何从多个网页中抓取单一类型的信息;
今天我们要讲的是如何从多个网页爬取多种类型的信息。
本次爬取是在简单数据分析05的基础上进行的,所以我们从一开始就解决了多网页的爬取问题,接下来我们将重点介绍如何爬取多类信息。
在练习之前先理清逻辑:
最后几篇文章只捕捉了一种元素:电影标题。本期我们将抓取各种元素:排名、片名、收视率、一句话影评。
根据Web Scraper的特性,如果要抓取多类数据,必须先抓取包装多类数据的容器,然后选择容器中的数据,这样才能抓取正确。让我画个图来演示:
我们需要先抓取多个容器,然后抓取容器中的元素:序号、电影名、评分和一句话影评。当爬虫运行完毕,我们就成功抓取到数据了。
概念清楚了,我们可以谈谈实际操作。
如果您对以下操作有任何疑问,可以阅读简单数据分析04的内容,其中文章详细介绍了如何使用Web Scraper进行元素选择
1.点击Stiemaps,在新面板中点击ID为top250的这一列数据
2.删除旧选择器,点击添加新选择器,添加新选择器
3.在新的选择器中,注意将Type类型改为Element(元素),因为在Web Scraper中,只有元素类型可以收录多个内容。
我们检查的元素区域如下图所示。确认无误后,点击保存选择器按钮,返回上一个操作面板。
在新面板中,单击您刚刚创建的选择器的数据行:
点击后,我们会进入一个新的面板。根据导航,我们可以知道它在容器内。
在新建面板中,我们点击Add new selector,新建一个选择器来抓取电影名称,类型为Text,值得注意的是因为我们在容器中选择文本,所以一个容器中只有一个电影名称,如果选择多个,请不要检查,否则捕获会失败。
当你选择电影名称时,你会发现容器以*敏*感*词*突出显示,我们只是选择*敏*感*词*区域中的电影名称。
点击保存选择器保存选择器后,我们会再创建三个选择器,分别选择编号、评分和一句话影评。因为操作和上面一模一样,这里就不解释了。
排名:
评分:
一句话点评:
我们可以观察我们在面板中选择的多个元素。总共有四个要素:姓名、编号、分数和评论。类型均为Text,无需多选。父选择器都是容器。
我们可以点击Stiemap top250下的选择器图,查看我们爬虫选择的元素的层级关系。确认无误后,我们点击Stiemap top250下的Selectors,返回选择器显示面板。
下图是我们这次爬虫的层级关系。和我们之前的理论分析一样吗?
确认选择正确后,我们就可以抓取数据了。该操作在简单数据分析04和简单数据分析05中已经提到过,忘记的可以复习旧文。下图是我抓取的数据:
还是和之前一样,数据是乱序的,不过这个没关系,因为排序属于数据清洗的内容,我们现在的话题是数据抓取。先完成相关知识点,再攻克下一个知识点,才是比较合理的学习方式。
今天的内容其实挺多的。你可以先消化一下。在下一篇文章中,我们将讨论如何抓取点击“Load More”加载数据的网页内容。