网站采集工具(是不是集搜客网络爬虫软件就采集不了了?(图))

优采云 发布时间: 2021-11-27 19:26

  网站采集工具(是不是集搜客网络爬虫软件就采集不了了?(图))

  注:从V1.5.x版本开始,下面提到的Jisouke采摘浏览器更名为Jisouke Data Manager

  一位用户提出了以下问题:

  阿里巴巴采购网站,在极手客网络爬虫V9.0.5. 之前制定的规则无法加载分析,数据无法用DS点数机抓取。,我曾经尝试过修改UserAgent,但是改成火狐45也没有用,我也清了缓存也没用。它似乎不是反爬网阻塞。极速客网络爬虫软件采集停止了吗?

  

  接下来,我们将围绕用户的问题,讲解如何使用GooSeeker新发布的集客浏览器来采集阿里巴巴外包咨询网站。

  请注意:本文发表于2020年2月29日,吉首客拣货浏览器首次公开发布,版本号为V1.0.7,软件正在快速迭代中,等你的时候后来看了这个文章,可能是吉手客拣货浏览器的功能更强大了。

  1、采集浏览器在哪里下载?

  

  目前,吉首客拣货浏览器是作为手动提取软件发布的,爬虫功能相当于批量自动提取,所以也是拣货软件的一部分。

  2.为什么叫采摘浏览器

  集客拣货浏览器,兼具手动提取和自动采集功能。但是,目前没有定义规则的功能。因此,必须同时安装吉首客爬虫软件V9.0.5及以上版本和吉首客拣货浏览器。下面解释两个软件如何协同工作来定义爬虫采集规则。

  3.如何运行拣货浏览器

  打开吉首客拣货浏览器,登录账号和吉首客爬虫软件是共享的,所以,如果正常,应该是自动登录的,可以看到如下界面

  

  从上图可以看出,左侧的工具栏是按键功能的入口,底部是状态栏。绿色表示登录成功。

  4. 开始定义规则

  在吉首客拣货浏览器中加载样例页面,这是旧的网络爬虫软件无法显示的阿里巴巴外包查询页面。在吉手客拣货浏览器中可以看到该页面加载成功。手动滚动到最后,等到所有内容都显示出来,然后点击左栏工具栏上的绿色+按钮,如下图。

  

  单击上图所示按钮后,您必须等待几秒钟。MS手书有点慢,可以看到调用了手客爬虫软件的MS手书,加载示例页面,自动进入定义。规则状态。

  5.定义MS计数器的规则

  与通用规则的定义一样,在大多数情况下,从集合浏览器传输的网页是完全相同的。少数情况下可能会显示乱码,但不影响采集规则的定义。

  

  如上图,定义好规则后,仍然使用红色箭头指向的按钮保存规则,但不要使用蓝色箭头指向的“爬取数据”,因为直接爬取的数据实际上是快照,你需要去客户的集合中进行挑选和浏览。在服务器上运行这个爬虫任务。

  6.如何抓取数据

  返回采集浏览器,点击左侧栏的任务管理按钮,进入任务管理页面,如下图

  

  以下是任务管理页面的完整视图

  

  如上图所示,在任务管理面板上,在左箭头位置,鼠标悬停时出现的菜单有“开始采集”,就是之前的单次搜索/采集搜索,新的版本无关紧要,反正我想运行几个爬虫窗口。右边的两个箭头可以用来设置爬虫组和运行爬虫组。

  7.观察爬虫状态

  

  在极手客拣货浏览器上,不再有静态显示的DS计数器控制面板,而是缩小为右下角的圆形图标。鼠标悬停在这个图标上,可以看到爬虫状态,显示的内容和之前的DS电脑控制面板一样。

  8.设置爬虫参数

  

  如上图所示,点击左栏中的设置按钮。大部分参数与旧版爬虫相同,即滚动次数暂时不同。新版本的滚动次数是滚动屏幕的数量,而旧版本是滚动到最后的额外滚动次数。以后会和旧版本保持一致(注意:这是一个临时状态)。

  9. 其他功能介绍

  从上到下依次是定义规则、任务管理、数据管理、文本分析、内容摘录、配置、帮助、账号管理

  

  10、已经实现的爬虫功能:

  一种。内容爬取:包括普通html和iframe中的内容爬取

  湾 翻页:目前尚不支持翻页按钮位于iframe中的功能

  c、连续点击:目前还不支持在iframe中点击

  d、附件下载

  11.老版本爬虫所没有的功能

  a、生成html快照

  b、拦截并保存ajax消息,包括post、get等各种http消息

  c、模拟post拦截json数据

  12. 总结

  因为还在测试阶段,可能还有很多问题,欢迎大家指出。另外,mac版在发布前还没有做logo标记工作,需要单独向管理员申请试用。Windows 版本目前只有 64 位操作系统。如需 32 位操作系统支持,请联系管理员。以上功能是2020年2月29日看到的,很快随着新版本的发布,网络爬虫功能会更加全面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线