无规则采集器列表算法(集搜客针对不同的网站(网页)提供快捷采集工具 )
优采云 发布时间: 2021-10-12 06:03无规则采集器列表算法(集搜客针对不同的网站(网页)提供快捷采集工具
)
极手客为不同的网站(网页)提供了很多快捷的工具,添加链接或者关键词,就可以采集数据,不用采集规则非常简单快捷.
我们以千城无忧51job的职位信息采集为例,讲解一下快捷采集的使用过程。
1. 首先下载安装Gooseeker Data Manager(增强爬虫软件)
数据管理器实际上是一个特殊的浏览器,一个具有爬虫功能和数据分析功能的浏览器。
安装完成后,数据管理器将自动启动。
关闭数据管理器后,要再次启动它,请双击桌面上的数据管理器图标。
2. 在 Gooseeker 数据管理器中,打开吉搜客官网
登录爬虫,登录会员中心(注意爬虫账号和会员中心账号必须一致),查看服务器是否连接(绿色勾已连接,红色勾未连接)。
3. 输入快捷方式采集
点击数据管理器左侧边栏的“快速”按钮,进入快捷方式采集。
4. 选择正确的快捷工具
根据你要采集的网页,选择类别-网站-网页
比如我们想要采集前程无忧_Jobs关键词搜索列表页面,选择招聘- 千程无忧-强程无忧_Jobs关键词搜索列表
如下图所示,选择快捷工具后,可以打开示例页面查看,后续操作时请确保添加的链接与示例页面类似。
或者浏览页面底部的示例数据,详细了解所选快捷工具是否符合要求。
温馨提示:针对不同的招聘网站,还有其他快捷的采集工具,如:智联招聘、猎聘、中华英才、拉勾。
5. 操作步骤
我们以一个快速搜索列表的工具为例,解释一下操作过程。
5.1 粘贴 URL 开始采集
比如我们想要采集“软件测试工程师”这个职位的搜索列表页面。
在51job网站上,使用Ctrl+c将页面链接复制到采集,将Ctrl+v粘贴到51job_post关键词的搜索列表快捷工具的URL输入栏中,选择后页数,开始采集。
5.2 采集中的爬虫窗口
点击获取数据后,
数据管理器自动弹出两个采集窗口(窗口右下方有一个绿色状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。当两个 采集 窗口工作时,它们都不能关闭。
5.3 打包下载数据
当数据管理器弹出采集窗口时,同时也弹出一个快捷方式采集数据管理窗口。
采集完成后,采集的状态会由*敏*感*词*的“采集”变为绿色的“Already 采集”。然后打包下载数据,下载的数据一般保存在电脑的下载文件夹中。
如果采集不成功,采集的状态会变成红色的“Stopped”。这时候检查
6. 采集 数据到
千城无忧_位置关键词搜索列表快捷工具采集获取的数据截图:
7. 继续采集 51job_工作详情
如果还想进入职位详情页面去采集数据,可以选择51job_Job Details Quick Tool,选择输入多个网址。
使用Ctrl+c批量复制上述数据表中职位详情页面的链接,使用Ctrl+v粘贴到这里,点击确定,批量采集职位详情信息。采集,包下载过程和上面类似。