京东网站如何使用直观标注的方法定义采集规则(组图)

优采云 发布时间: 2021-08-20 20:21

  京东网站如何使用直观标注的方法定义采集规则(组图)

  支持软件版本:V10及更高版本Data Manager-Enhanced Web Crawler

  老版本对应教程:V9及以下。极手客网络爬虫对应的教程为“采集网站数据”

  下载安装数据管理器后,我们在数据管理器的浏览器中打开采集页面,在页面上点击鼠标,将我们想要采集的内容标记出来。此过程称为:使用可视化注释方法定义爬虫规则。本文中的任务和规则均指爬虫规则。

  注意:本文中解释的可视化注释适用于采集 网页上可见的内容。如果采集的内容没有直接显示在网页上,比如超链接的URL,或者不能准确的进行可视化标注,可以使用“内容映射”中的方法。

  1.操作步骤(看视频)

  下面以京东网站为例,向大家展示如何使用可视化标注方式定义采集规则。步骤如下:

  

  2.详细操作步骤

  采集Rules:京东数据管家名单示范规则(点击下载本规则)

  示例网址:%E5%86%B0%E7%AE%B1&enc=utf-8&wq=%E5%86%B0%E7%AE%B1&pvid=2879721c10d54340a16491de943d6886

  采集Content:网页第一个商品的商品名称、价格、评论数、店铺名称

  第一步:打开网页

  1.1,加载网页看到你想要的内容采集

  打开数据管理器,输入采集 URL 并按 Enter。网页加载完毕后,首先观察采集的内容是否加载完毕。有些网页很长。如果想要采集页面底部的内容,一定要拉动网页侧边的滚动条,让网页满载,然后创建采集任务。

  1.2,创建采集task

  点击左栏上方的“+”按钮,看到左栏显示的工作台,输入任务名称。

  每个任务必须有一个唯一的任务名称。如果新名字和别人的名字一样,会在界面上以红色提示,必须重命名,直到被接受。如果您使用非常常见的名称,则使用相同名称的可能性很高。建议在名字后加上自己的吉首账号名。

  

  第2步:标记需要采集的信息

  2.1,在网页上标记

  比如我们想要采集网页上第一个产品的标题,用鼠标点击标题,标题文字会被一个蓝色的细框包围。

  双击产品标题,弹出一个小窗口,要求你输入这个采集内容的字段名,对应excel中的字段。在这里,我们输入的字段名称是产品标题。

  如果这是第一个采集创建的内容,还会要求输入表名,对应采集输出的excel表,表名自定义。在爬虫软件中,我们通常称这张表为“组织盒”,形象地表示我们正在将网页内容组织成一个盒子。

  通过这个标记过程,网页内容会与爬虫以后输出的excel表格建立映射关系。 “映射”这个词在后面的教程中会多次提到。网页内容采集是将网页内容映射到excel表格的过程。

  

  2.2,标记更多内容

  重复上一步,标记价格、评论数量和商店名称。

  

  第 3 步:保存规则并采集数据

  3.1,测试采集是否符合预期

  点击“测试”按钮检查信息的完整性。很有可能采集到达的内容是空的,或者收录了很多不需要的内容,或者放错了位置,采集到达了相邻的内容。然后需要重新调整映射关系。如果视觉标注不准确,可以到下方DOM窗口进行内容映射。

  

  3.2,点击“保存”

  只有保存规则,爬虫才能执行规则,采集数据。以后可以修改规则。

  

  3.3,点击“采集数据”

  点击保存按钮旁边的“采集数据”按钮,爬虫会打开一个新窗口启动采集data来测试采集规则是否有效。除了通过“采集数据”按钮启动采集任务外,还有其他运行方式。详情请参考下方起始数据采集教程。

  

  第 4 步:查看数据

  4.1,开始导出过程

  参考上图。 采集完成后,会显示任务状态页面。点击“导出Excel”按钮,出现提示框。点击确定。

  

  4.2,下载导出的数据

  点击导出数据,点击下载,默认保存到电脑的下载文件夹中。

  

  下载的文件是一个ZIP包,放在电脑的“下载”文件夹中。您可以点击它自解压到一个excel文件中。

  

  提醒:本教程只有采集有第一个产品的数据。如果想要采集本页所有产品的数据,请阅读下一篇文章《网络爬虫采集表数据》 第三步复制样例,采集list数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线