无规则采集器列表算法(集搜客针对不同的网站(网页)提供快捷采集工具 )

优采云 发布时间: 2021-10-12 06:03

  无规则采集器列表算法(集搜客针对不同的网站(网页)提供快捷采集工具

)

  极手客为不同的网站(网页)提供了很多快捷的工具,添加链接或者关键词,就可以采集数据,不用采集规则非常简单快捷.

  我们以千城无忧51job的职位信息采集为例,讲解一下快捷采集的使用过程。

  1. 首先下载安装Gooseeker Data Manager(增强爬虫软件)

  数据管理器实际上是一个特殊的浏览器,一个具有爬虫功能和数据分析功能的浏览器。

  安装完成后,数据管理器将自动启动。

  关闭数据管理器后,要再次启动它,请双击桌面上的数据管理器图标。

  

  2. 在 Gooseeker 数据管理器中,打开吉搜客官网

  登录爬虫,登录会员中心(注意爬虫账号和会员中心账号必须一致),查看服务器是否连接(绿色勾已连接,红色勾未连接)。

  3. 输入快捷方式采集

  点击数据管理器左侧边栏的“快速”按钮,进入快捷方式采集。

  

  4. 选择正确的快捷工具

  根据你要采集的网页,选择类别-网站-网页

  比如我们想要采集前程无忧_Jobs关键词搜索列表页面,选择招聘- 千程无忧-强程无忧_Jobs关键词搜索列表

  如下图所示,选择快捷工具后,可以打开示例页面查看,后续操作时请确保添加的链接与示例页面类似。

  或者浏览页面底部的示例数据,详细了解所选快捷工具是否符合要求。

  

  温馨提示:针对不同的招聘网站,还有其他快捷的采集工具,如:智联招聘、猎聘、中华英才、拉勾。

  5. 操作步骤

  我们以一个快速搜索列表的工具为例,解释一下操作过程。

  5.1 粘贴 URL 开始采集

  比如我们想要采集“软件测试工程师”这个职位的搜索列表页面。

  在51job网站上,使用Ctrl+c将页面链接复制到采集,将Ctrl+v粘贴到51job_post关键词的搜索列表快捷工具的URL输入栏中,选择后页数,开始采集。

  

  

  5.2 采集中的爬虫窗口

  点击获取数据后,

  数据管理器自动弹出两个采集窗口(窗口右下方有一个绿色状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。当两个 采集 窗口工作时,它们都不能关闭。

  

  5.3 打包下载数据

  当数据管理器弹出采集窗口时,同时也弹出一个快捷方式采集数据管理窗口。

  采集完成后,采集的状态会由*敏*感*词*的“采集”变为绿色的“Already 采集”。然后打包下载数据,下载的数据一般保存在电脑的下载文件夹中。

  

  如果采集不成功,采集的状态会变成红色的“Stopped”。这时候检查

  6. 采集 数据到

  千城无忧_位置关键词搜索列表快捷工具采集获取的数据截图:

  

  7. 继续采集 51job_工作详情

  如果还想进入职位详情页面去采集数据,可以选择51job_Job Details Quick Tool,选择输入多个网址。

  使用Ctrl+c批量复制上述数据表中职位详情页面的链接,使用Ctrl+v粘贴到这里,点击确定,批量采集职位详情信息。采集,包下载过程和上面类似。

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线