集搜客网页抓取软件(用GS浏览器的采数据方式介绍不同的窗口类型 )
优采云 发布时间: 2022-03-19 12:17集搜客网页抓取软件(用GS浏览器的采数据方式介绍不同的窗口类型
)
用GS浏览器或者MS点数机完成采集规则后,就可以打开DS点数机进行数据采集,而吉索克爬虫软件非常灵活,提供多种使用方式供大家选择。下面介绍几种不同的数据采集方式。他们使用的爬虫窗口类型不同,控制方式也略有不同。爬虫窗口的描述请参考“DS 计数器的窗口类型”。
方法一:保存规则,爬取数据
完成采集规则并保存后,点击右上角“爬取数据”按钮,会自动弹出爬虫窗口。直接采集示例网页,使用测试窗口,菜单项很少。用于验证爬取规则的正确性。
1.1、用MS找几个单位制定规则并保存。
1.2,然后点击MS工具栏右上角的“爬取数据”按钮,会弹出DS爬虫窗口采集示例页面信息。
方法二:单次搜索/采集 DS 计数器
单独运行DS计数器,可以在左侧看到规则列表,每条规则都有“单条搜索”和“集合搜索”按钮。单查与吉搜的使用说明及区别请参考《吉索专有名词:单查与吉搜》。简单总结一下,Single Search 只运行一个爬虫窗口,而 Jisou 可以运行多个爬虫窗口。
2.1、打开DS计数器(GS浏览器版爬虫点击右上角“DS计数器”即可运行;火狐版爬虫是在工具菜单中点击“DS计数器数据”跑步)。
2.2、搜索主题名,可以使用*模糊匹配(前、后、中都可以收录*)。
2.3、右击主题名称,在弹出的菜单中选择“Statistical Leads”。您可以看到有多少潜在客户正在等待被抓取,而这些潜在客户就是 URL。
2.4、点击单搜索,输入线索数量(激活所有线索;如果要采集其他结构相同的网页,选择添加,然后复制多个网址进去,可以批量采集 >.更多操作见《如何管理规则线索》
方法三:使用爬虫组并发采集数据
爬虫组功能支持在一台电脑上同时运行多个爬虫。它集成了crontab爬虫调度器、DS计数器主菜单功能、数据库存储三大功能块。无需指定采集多少线索,爬虫群会自动采集所有线索为采集,让你高效采集数据,监控规则运行。有关用法,请参阅“如何运行 Crawler Swarm”
方法四:编写crontab并发爬虫采集数据
crontab程序(终极功能)和爬虫组一样,可以设置多个爬虫窗口并发采集数据,但是需要自己编写程序。两者的区别在于,crontab程序可以指定爬虫窗口只有哪个主题任务采集,可以大大提高稳定性和效率,而爬虫组则自由地将主题任务分配给爬虫窗口,即效率稍慢。详情请阅读文章《如何通过crontab程序实现周期性增量采集数据》。
如有疑问,您可以或