自动采集数据(增强版及更高数据管家—增强版网络爬虫老版本对应教程)

优采云 发布时间: 2022-01-03 05:12

  自动采集数据(增强版及更高数据管家—增强版网络爬虫老版本对应教程)

  支持软件版本:V10及更高版本Data Manager-Enhanced Web Crawler

  老版本对应教程:V9及以下。吉首客网络爬虫对应的教程是《DS编号机采集数据》

  完成采集规则并保存后,如何启动采集?目前有三种类型的发布。

  方法一:保存规则后,点击工作台上的“数据采集”按钮启动采集

  方法二:在任务管理页面,启动采集。

  方法三:使用爬虫组采集数据。

  本教程只讲解方法一和方法二,以及一些常用的采集优化配置。第三种方法请参考“爬虫组采集数据”。

  1. 方法一、直接点击“数据采集”按钮启动采集

  制定规则并保存。只需单击旁边的“数据采集”按钮即可启动采集。 采集过程同方法二。

  

  2. 方法二,在任务管理页面,启动采集。

  2.1 点击数据管理器左侧边栏的任务管理按钮

  

  2.2 选择任务名称进入任务管理页面

  在本例中,选择的任务是 JD-Jeans Man。

  任务管理下面是线程(网站)管理,可以对这个任务的线程(网站)进行管理、添加、查看、激活等。具体操作参见“如何管理网络爬虫线索”。

  观察 URL 状态的详细信息,看看有多少 采集 URL 处于待处理状态,并记下这个数字。在此示例中,有两个 采集 URL。

  

  2.3 点击任务名称后的菜单启动采集

  

  按照提示输入网址数和翻页数。

  注意,连续翻页会算一个网址。 (比如在这个例子中,抓取京东男牛仔裤的列表页,一共100页。对于爬虫来说,这是一个网址,手机的列表页网址是另一个网址。)

  

  本例中,如果不限制翻页,爬虫要翻到100页才会结束,抓取时间比较长。一些用户刚刚开始练习,急于看到数据结果。您可以在此处设置少量页面进行抓取,例如5个页面。

  点击确定后会弹出一个新窗口,加载要爬取的网页,启动采集。在这个窗口的右下方,有一个绿色的圆形标志,表示这是一个采集窗口,以及采集的状态。

  

  2.4 采集 完成后按照教程“excel格式数据打包下载”进行数据打包下载。

  3. 采集优化配置

  在数据管理器的最左侧边栏中,有一个设置按钮,点击它,进入采集的设置选项,选择配置。

  

  采集配置中,用户常用的参数:

  延迟爬行:部分网页打开速度慢,延迟爬行需要设置大一些。比如设置10s就是等待网页加载10s后才开始采集。

  超时时间:某些网页加载速度非常慢。如果采集的内容还没有加载,爬虫会一遍遍扫描等待。但你不能无限期地等待。设置时间,例如 60 秒。 60s时间到,爬虫会自动跳转到下一个采集网页。

  滚屏采集:需要开启滚屏到采集才能看到完整的内容。一般设置次数为2,速度为2,数值越大采集越慢。如果你想要采集的内容,它在网页的顶部,你不需要滚动,你可以把它关掉。

  内容重复中断:部分网页,例如本例中的京东listing页面,翻到最后一页时,会无限循环地停留在最后一页。设置重复内容中断,当一个页面重复采集3次后,采集中止退出。

  第一部分文章:“如何管理网络爬虫的线索”第二部分文章:“使用爬虫组采集数据”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线