集搜客网页抓取软件(《DS打数机如何采集数据》的方式三和方式四 )

优采云 发布时间: 2021-11-10 00:24

  集搜客网页抓取软件(《DS打数机如何采集数据》的方式三和方式四

)

  配套软件版本:V9及以下 极助网络爬虫软件

  新版对应教程:V10及更高版本数据管家-增强版网络爬虫对应教程为《开始数据采集》

  注:极手客的GooSeeker爬虫从V9.0.2版本开始。爬虫术语“主题”统一改为“任务”。在爬虫浏览器中,先命名任务,然后创建规则,然后登录采集。在搜客官网会员中心的“任务管理”中,可以查看任务采集的执行状态,管理线程URL,进行调度设置。

  一、两种操作方式(观看视频)

  在GS爬虫浏览器中完成采集规则后,就可以打开DS号机进行数据采集了。以下是两种手动操作方法。另外,采集的自动运行可以参考“DS”。如何采集Data”计数机的模式三和模式四。

  

  二、操作步骤

  方法一:【对于自己定义规则的用户】保存规则并爬取数据

  完成采集规则并保存后,点击GS爬虫浏览器右上角的“抓取数据”按钮,会自动弹出爬虫窗口,直接采集示例网页,使用测试窗口,菜单项Less,主要用于验证爬取规则的正确性。详细操作截图见采集网页数据第3步3.3

  方法二:【针对直接运行已有规则的用户】DS Kiosk单人采集/采集采集

  2.1、打开DS点数机(点击GS浏览器右上角“DS点数机”运行;火狐版爬虫在工具菜单点击“DS点数机”运行)。

  2.2、如果你做了很多规则,可以在柜台上搜索这个规则的主题名称,可以使用*模糊匹配(前面、后面、中间可以收录*)。

  2.3、右键点击规则的主题名称,弹出菜单,选择“统计线索”,可以看到有多少线索(网页地址)等待被抓取,记住这个数字。

  2.4、点击此规则的单次搜索按钮,要求输入线索数,输入上一步统计要捕获的线索数,开始采集数据上计数机的右侧。类型是管理窗口。如果同时点击采集,会弹出一个额外的采集窗口(没有管理功能的计数器窗口的简化版),两个窗口一起采集数据。

  提示:每个规则都有“单一搜索”和“采集”按钮。简单总结一下,对于一个规则,Single Search 只运行一个爬虫窗口,相当于一只手在工作,而Collect 可以运行另一个爬虫窗口,相当于两只手在工作,而且运行速度会更快。对于多条规则,打印机最多可以同时运行 20 条规则,但只有一条规则是单个搜索窗口,其他 19 条规则是采集窗口。

  杉手与吉首的说明及区别请参见《吉首客条款:杉手与吉首》。

  2.5、提示“没有线索,可以添加新线索或激活已有线索”,表示已经再次采集到线索。如果想再次采集,右击主题名称,选择管理线索->激活所有线索;如果要采集其他结构相同的网页,选择添加,然后将多个网址复制进去,可以再次批量采集。更多操作请看《如何管理线索规则》

  

  

  三、DS计数器的窗口类型介绍

  DS点票机负责采集网页数据。根据使用方法的不同,分为四种窗口类型。请注意区分用法。

  管理窗口:点击GS爬虫浏览器工具栏上的“DS计数器”按钮,或者在火狐浏览器中选择菜单“工具”->“DS计数器”,即可启动管理窗口,里面有最全面的菜单和按钮,所有的配置操作都应该在这个窗口中进行;

  尝试抓取窗口:点击MS平台的“抓取数据”按钮,或者在GS爬虫浏览器的“定义规则”状态下点击工具栏上的“抓取数据”按钮;

  采集窗口:点击DS计数器上的“采集”按钮开始;

  爬虫组窗口:选择DS计数器菜单“爬虫组”,先“配置”爬虫组,再“运行”;

  每个窗口的分布结构都是一样的,只是隐藏了不同的部分。介绍如下:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线