集搜客网页抓取软件(DS打数机的菜单栏“配置”菜单图(组图) )
优采云 发布时间: 2022-03-14 19:02集搜客网页抓取软件(DS打数机的菜单栏“配置”菜单图(组图)
)
菜单栏
图 1:DS 计数器的菜单栏
文件菜单
Tips:如果使用采集功能,同时运行多个窗口一起爬取,几天后会生成多个子目录。Windows下,文件名加上目录名不能超过250个字母(大约),否则爬取结果不会被保存。随着子目录数量的增加,这个限制会逐渐接近。然后定期修改存储路径,使爬取结果文件存在于新目录中。
配置菜单
图 2:DS 打印机的配置菜单
温馨提示:电脑具有智能判断能力。它在超时期限到期之前不会开始抓取网页内容,而是使用一系列智能判断标志。一旦找到条件,爬取过程将立即开始。因此,没有必要设置超时时间。顾虑太多,等到网络异常或者爬取规则不合适的时候超时。
滚动次数(scrollMorePages):附加滚动次数,默认值为0,表示不滚动。滚动功能用于抓取 AJAX 网页上的数据,最初不会从服务器下载,直到用户滚动浏览器屏幕并将数据显示在窗口中。请注意,这个数字并不代表确切的滚动次数,因为程序会根据网页长度的变化自动调整滚动次数。这个数字可以看成是额外滚动的次数,也就是为了保证抓取到最完整的数据,滚动的次数就足够了。次数之上的附加次数。常用值:3 到 5。具体使用方法请参见如何自动滚动捕获 AJAX网站 数据滚动速度(scrollWindowRatio):正整数或负整数,-1和1相同,表示没有速度变化。1 表示速度增加。假设N>1,那么每个滚动屏幕会延迟1/N秒;假设 Ncrontab 调度器控制 采集 任务,更好的参数组合是 scrollMorePages = 5scrollWindowRatio = -2
提示:勾选“Timer Triggered”后,有时网页未完全显示时会被抓取。这时候可能会漏掉内容。那么,一般的使用原则是:先不要设置这个选项,只有觉得有必要才设置。
“高级”菜单
帮助菜单
操作窗口
图 3:DS 计数器的操作窗口
搜索窗口
在搜索框中输入主题名称,按回车键或“搜索”按钮,搜索结果将显示在列表中,包括主题名称、样本页、单项搜索、集体搜索等4项信息,如果您忘记主题名称的情况下,可以使用通配符*进行模糊搜索。您也可以在空白处右键单击,从快捷菜单中选择“浏览主题”,查看所有主题。
搜索列表最多显示 20 个主题名称。当搜索结果大于 20 时,剩余的结果将显示在下一页。点击“上一页”或“下一页”进行翻页操作。
“单次搜索”是“抓取网页”的快捷键。点击“单次搜索”按钮会弹出“抓取网页”会话窗口。设置好要抓取的线索数量并确认后,会在管理窗口启动。抓取任务,具体抓取情况可通过点击“状态面板”中的“性能”查看;注意:DS 计数器只允许一个主题激活“单次搜索”功能,如果要激活新主题的“单次搜索”功能,管理窗口会中断上一个主题的抓取任务,而是抓取新主题的网页数据,即“单次搜索”被覆盖。
“即搜”是“单搜”的升级版。每个主题都可以激活“即搜”功能。点击主题的“即搜”按钮后,会弹出“抓取网页”会话窗口,设置抓取线索数量并确认后,会自动弹出新的简化版DS计数器窗口(采集窗口) ,网页数据会与原来的管理窗口同时抓取,可以高效抓取数据;
DS 计数器最多允许 20 个采集窗口。这是因为主题列表最多可以显示20个主题名称,所以一共可以启动20个采集窗口,每个主题的采集窗口都有一个固定的编号,与列表中的主题编号对应一个*敏*感*词*。如果已经运行了 20 个采集窗口,还需要重新运行新主题的采集窗口,那么 DS 计数器会根据主题列表中新主题的序号,使用对应编号的采集窗口,以便使用先前运行的。话题被强制停止,和“单次搜索”一样,覆盖执行。因此,在运行采集窗口时,
提示:DS 计算机窗口也称为爬虫窗口。其中带有菜单栏和操作窗口的DS电脑窗口称为管理窗口,但只有一个;而简化版的DS电脑窗口可以有多个窗口,但是没有菜单栏。而主操作窗口纯粹是用来采集数据的。例如,采集窗口是简单捕获数据的窗口的简化版本。
快捷菜单
“抓取网页”和“单次搜索”的功能是一样的。设置好爬取线索的数量后,就会开始爬取过程。
“浏览主题”是全搜索的快捷键。点击后,所有规则都会显示在搜索窗口中,可用于快速检索。
“统计线索”用于查看主题下线索的执行状态,其中“等待爬取”是指可以爬取数据的URL线索,“爬取失败”是指爬取数据失败的URL线索, “rules not Applicable”是指不适用爬取规则的 URL 线索,“成功爬取”是指成功采集使用规则数据的 URL 线索。
“管理线索”是对线索状态的管理。“激活失败线索”可以将抓取失败的线索重新激活到“等待抓取”状态。“激活所有线索”可以放置所有线索(失败和成功线索) 激活“等待获取”状态,“撤销所有线索”是使“等待获取”、“获取失败”和“规则”的线索失效不适用”,并将这些线索的状态更改为“成功获取”“线程状态;
“计划”用于查看和启动周期性爬取任务。周期性抓取任务是通过设置周期性调度参数来实现的,可以设置为手动启动或者自动启动,可以达到定时自启动采集的效果。
状态面板
图 4:DS 乘法器的状态面板
统计完成的采集任务的信息。点击后可以看到性能细分为主题统计、全局统计、对象引用、数组大小。
按主题统计:根据主题名称统计每个采集 任务。如果执行了多个采集任务,则会显示每个主题下采集任务的详细信息。全局统计:统计当前爬虫窗口执行的所有采集任务的参数信息。对象引用:统计当前爬虫窗口执行的所有采集任务引用的主要对象。数组大小:统计当前爬虫窗口执行的所有采集任务数组的大小。
显示当前爬虫窗口执行的 采集 任务的主题名称。
显示当前爬虫窗口执行的采集任务的开始时间。
显示当前爬虫窗口 采集 执行的任务总数。
显示当前爬虫窗口采集任务要执行的线索数。该值随 采集 任务的进度而变化。
描述爬虫窗口的类型。主要有“管理窗口”、“手动调度”和“自动调度”三种类型。DS柜台系统默认打开的窗口类型为管理窗口。执行“单一搜索”时,窗口类型显示为“管理窗口”。执行“集体搜索”时,窗口类型显示为“手动调度”。如果自定义代码采集,窗口类型显示为“Auto Schedule”。
窗口名称对应窗口类型,即当窗口类型为“管理窗口”时,对应的窗口名称为“单查”;,用户需要在代码中自定义窗口名称。
检查服务器是否正常连接。分为爬虫规则服务器和爬虫线索服务器。连接正常时状态栏显示为 ,连接错误时状态栏显示为
日志
记录特殊事件发生时
捕获过程中的特殊事件级别分为4个级别,分别代表:调试、提示、告警、错误。对应的数字范围从 1 到 4。数字越大,严重性越高。
网页爬取失败后,会生成相应的线索号。你可以写下线索编号。进入MS柜台,点击菜单“工具”->“加载规则”->“按线索号”,放入目标网页和爬虫。抓取规则同时加载到工作台上,抓取规则用于检查目标页面是否合适。如果不合适,可以修改获取规则。
爬虫软件处理器
网络爬取失败的原因
如有疑问,您可以或