牛客网、职友网的一键采集资源介绍-乐题库

优采云发布时间: 2022-05-12 09:01

　　整洁的一键采集资源介绍：根据楼主的要求，选取了牛客网、招聘网站、职友网的8个标准、以及其它小一点的网站的1个标准，拿来实现，得到30+份测试数据，用了有大半年的时间。个人感觉该方法很不错，方便迅速，有了标准就知道哪些是可以采集的了，并且可以很快的找到采集数据的方法和源头。算法介绍：此算法将数据分成4个类，分别按照测试时间、跳槽次数、syk数量、有效简历数量、招聘网站/职友网的标准，依次采集，每个测试时间内实现标准的最大采集量。

　　获取数据：数据获取过程大致这样，首先找到该测试网站/职友网的站内链接，然后找到该测试网站/职友网的专栏，再找到该专栏的入口。完成计算：当专栏入口达到后，找到该页面的链接就好了，会返回数据。说明：选择多个站内的url再去分析有多少数据就好了，这里分析的时间也只有1分钟不到，简历上有的全都采集了，没有上传的，就算没有采集完毕，根据专栏页内的url，结合html结构提取应该也能找到下一页链接。

　　比如牛客网，有这么几个页面：，确实没有采集全。目标列表页、采集核心页：前面做了这么多都是在简历上，这个页面，可以在链接间接获取简历页面下面的链接，假如有几页需要采集，直接翻页也行。这个页面只需要采集核心页（也就是专栏页，将核心页的url列入表格），而其它页面将会缩小采集范围。核心页文本(会写入字典)采集：简历上的简历内容不想做进字典里，就用采集功能，将核心页中的html用javascript写入字典就行。

　　简历分析：采集简历页面的html还是很麻烦的，采集完获取第一页只需要用到url提取，后面需要用到xpath提取，实际情况来看，这两个功能基本上不可能实现的，除非实在多页面采集，比如测试很多页都需要测试，那么这两个简单的功能也就必须放弃掉。内容分析：可以自定义采集什么内容，每页按照什么规则来采集，很有意思，想要实现的自己试试。

　　博客文章页的描述页可以用html提取，文本内容做成列表(这个html提取不一定很精确，后面可以提取一个点值)，标题、内容直接提取，会较为容易。看一下具体实现：#。

0

2022-05-12

整洁的一键采集资源

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

牛客网、职友网的一键采集资源介绍-乐题库

0 个评论

发起人

AI时代内容工厂

牛客网、职友网的一键采集资源介绍-乐题库

0 个评论

发起人

相关问题