如何抓取网页数据( 如何用WebScraper选择元素的操作点击Stiemaps图解 )

优采云 发布时间: 2022-02-20 08:07

  如何抓取网页数据(

如何用WebScraper选择元素的操作点击Stiemaps图解

)

  

  这是简易数据分析系列文章 的第七部分。

  在第 4 部分 文章 中,我解释了如何在单个网页中抓取单一类型的信息;

  在第 5 部分 文章 中,我解释了如何从多个网页中抓取单一类型的信息;

  我们今天要讲的是如何从多个网页中爬取多种类型的信息。

  这次爬取是在简单数据分析05的基础上进行的,所以我们从一开始就解决了爬取多个网页的问题,接下来我们将重点介绍如何爬取多类信息。

  

  练习之前先理清逻辑:

  最后几篇文章只抓住了一种元素:电影的标题。本期我们将抓取多种元素:排名、片名、收视率、一句话影评。

  

  根据Web Scraper的特性,如果要抓取多类数据,首先要抓取包装多类数据的容器,然后选择容器中的数据,这样才能正确抓取。我画了一张图来演示:

  

  我们首先需要抓取多个容器,然后抓取容器中的元素:序号、电影名、评分、一句话影评。当爬虫完成运行后,我们就成功抓取了数据。

  概念清楚后,我们就可以谈实际操作了。

  如果您对以下操作有任何疑问,可以阅读简单数据分析04的内容,该文章文章详细说明了如何使用Web Scraper选择元素

  1.点击 Stiemaps 并在新面板中点击 ID 为 top250 的这一列数据

  

  2.删除旧选择器,点击添加新选择器添加新选择器

  

  3.在新的选择器中,注意将Type改为Element(元素),因为在Web Scraper中,只有元素类型可以收录多个内容。

  

  我们检查的元素区域如下图所示。确认无误后,点击保存选择器按钮,返回上一操作面板。

  

  在新面板中,单击您刚刚创建的选择器的数据行:

  

  点击后,我们将进入一个新的面板。根据导航,我们知道它在容器内部。

  

  在新建面板中,我们点击添加新选择器,新建一个选择器来捕捉电影名称,类型为Text,值得注意的是因为我们选择容器中的文本,所以一个容器中只有一个电影名称,所以不要勾选多选,否则捕获会失败。

  

  当你选择电影名称时,你会发现容器以*敏*感*词*突出显示,我们只是在*敏*感*词*区域选择电影名称。

  

  点击保存选择器保存选择器后,我们再创建三个选择器,分别选择编号、评分和一句话影评。因为操作和上面一模一样,这里就省略解释了。

  排名号:

  

  分数:

  

  一句话点评:

  

  我们可以观察到我们在面板中选择的多个元素。总共有四个要素:姓名、编号、分数和评论。类型均为Text,无需多选。父选择器都是容器。

  

  我们可以点击 Stiemap top250 下的选择器图,查看我们爬虫选择的元素的层次关系。确认无误后,我们点击Stiemap top250下的Selectors,返回选择器显示面板。

  

  下图是我们这次爬虫的层级关系。和我们之前的理论分析一样吗?

  

  确认选择无误后,我们就可以抓取数据了。该操作在简单数据分析04和简单数据分析05中已经提到过,忘记的可以复习旧文。以下是我抓取的数据:

  

  还是和之前一样,数据是乱序的,不过这个没关系,因为排序属于数据清洗的内容,我们现在的话题是数据抓取。先完成相关知识点,再攻克下一个知识点,是比较合理的学习方式。

  其实今天还是有很多内容的。你可以先消化一下。在下一篇文章中,我们将讨论如何抓取点击“Load More”加载数据的网页内容。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线