全网文章 采集(极客邦新产品——极客搜索,整合技术文章资源)
优采云 发布时间: 2022-02-20 12:30全网文章 采集(极客邦新产品——极客搜索,整合技术文章资源)
最近Geekbang发布了一款新产品——Geek Search,它整合了Geekbang下面的技术文章资源。抱着尝鲜的态度,我也试了一下,发现搜索速度很快。分析了为什么这么快,主要有两点:1、资源太少了!!!,12个公众号加起来5161篇文章;2、使用Vue框架,异步加载数据。这个产品还是很好用的,推荐一下,希望能尽快添加可搜索的技术资源。
最近在想采集some文章做分词。接口是vue写的,所以所有的数据都要经过接口,所以数据采集很方便,所以一时兴起,趁着产品刚刚上线,防爬机制不应该强,所以我采集Geekbang的所有公众号数据。一:文章采集
主要分为两个步骤,采集文章链接和原文采集。
1、采集文章链接,通过搜索界面,抓取所有文章链接
从返回的数据中可以抓取到文章原文的链接,接下来就是链接到采集原文的数据了。
2、原创资料采集
使用scrapy框架对采集微信文章数据,共采集5151篇文章。
具体代码见文末地址
二:数据分析
接下来,我对采集的文章做了一些简单的统计。
1、哪个公众号写的最多文章
infoQ 写的文章最多,998 篇,占 19.35%。StuQ以835篇排名第二,占比16.19%,EGONetworks以802篇排名第三,占比15.55%。这三个部分恰好是极客科技的三大业务。
2、每天文章 帖子的总数
随着运营的公众号越来越多,文章的数量不断攀升,2017年达到每月250多个,编辑能力非常强大。
统计每天发布文章的数量:非常规律,周一到周五多,周六周日少。那些在周六和周日努力工作的人。
3、文章词频统计
对所有文章进行分词,然后统计词频。
Top 10:我们、一、数据、技术、能、服务、使用、需要、问题、系统
前 10 个单词是:我们需要一个系统来解决技术或数据问题。是在暗示什么吗?我可以开发一个供您使用吗?商机就在这里。由于分词的结果还没有调整,所以有很多常用的修饰语等等。以后再做是一项体力消耗大的工作。
4、作者统计
基于 文章 的作者的统计。前 10 名:StuQ、EGO、InfoQ、徐川、大家硕、陈圆圆、Q News、Indigo K & Guo Liang、Stark Academy、Daniel V Classroom。
5、文章头条新闻
文章标题的命名也反映了时间的趋势,所以我把文章的标题全部提取出来,做了分词,自定义jieba的字典,去掉了很多修饰符等等,得到了下面的结果。
2015年:技术排名第一,这也符合Geekbang的特点。微直播和微课堂的提及很多,主要是因为StuQ的公众号上的广告太多了。当然,你也可以看到一些过去的流行词,比如互联网金融、大数据、创业、容器技术等。
2016年:技术依旧稳居第一,云计算、开源等词出现,也出现了阿里、AWS、百度、京东等国内大公司。
2017:变化离不开技术。同时,机器学习、深度学习、人工智能、AI等词汇的使用量有所增加,符合当下的学习热潮。
从标题文章的命名来看,极客帮微信公众号的内容基本紧跟最新科技潮流。把握技术发展趋势,分析头条。
三:总结
本文的主要工作是数据采集和分析。对于数据采集,难度不大,用scrapy可以很快搞定。数据分析很费时间,我只做了一些简单的统计。后续会在数据的基础上做一些文本相关性分析。
数据的展示地址,源码也已经放到github上,crawler-geekbang/geekbang at master·xuxping/crawler-geekbang·GitHub