牛客网、职友网的一键采集资源介绍-乐题库

优采云 发布时间: 2022-05-12 09:01

  牛客网、职友网的一键采集资源介绍-乐题库

  整洁的一键采集资源介绍:根据楼主的要求,选取了牛客网、招聘网站、职友网的8个标准、以及其它小一点的网站的1个标准,拿来实现,得到30+份测试数据,用了有大半年的时间。个人感觉该方法很不错,方便迅速,有了标准就知道哪些是可以采集的了,并且可以很快的找到采集数据的方法和源头。算法介绍:此算法将数据分成4个类,分别按照测试时间、跳槽次数、syk数量、有效简历数量、招聘网站/职友网的标准,依次采集,每个测试时间内实现标准的最大采集量。

  获取数据:数据获取过程大致这样,首先找到该测试网站/职友网的站内链接,然后找到该测试网站/职友网的专栏,再找到该专栏的入口。完成计算:当专栏入口达到后,找到该页面的链接就好了,会返回数据。说明:选择多个站内的url再去分析有多少数据就好了,这里分析的时间也只有1分钟不到,简历上有的全都采集了,没有上传的,就算没有采集完毕,根据专栏页内的url,结合html结构提取应该也能找到下一页链接。

  比如牛客网,有这么几个页面:,确实没有采集全。目标列表页、采集核心页:前面做了这么多都是在简历上,这个页面,可以在链接间接获取简历页面下面的链接,假如有几页需要采集,直接翻页也行。这个页面只需要采集核心页(也就是专栏页,将核心页的url列入表格),而其它页面将会缩小采集范围。核心页文本(会写入字典)采集:简历上的简历内容不想做进字典里,就用采集功能,将核心页中的html用javascript写入字典就行。

  简历分析:采集简历页面的html还是很麻烦的,采集完获取第一页只需要用到url提取,后面需要用到xpath提取,实际情况来看,这两个功能基本上不可能实现的,除非实在多页面采集,比如测试很多页都需要测试,那么这两个简单的功能也就必须放弃掉。内容分析:可以自定义采集什么内容,每页按照什么规则来采集,很有意思,想要实现的自己试试。

  博客文章页的描述页可以用html提取,文本内容做成列表(这个html提取不一定很精确,后面可以提取一个点值),标题、内容直接提取,会较为容易。看一下具体实现:#。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线