全网文章 采集(极客邦新产品——极客搜索,整合技术文章资源)

优采云 发布时间: 2022-02-20 12:30

  全网文章 采集(极客邦新产品——极客搜索,整合技术文章资源)

  最近Geekbang发布了一款新产品——Geek Search,它整合了Geekbang下面的技术文章资源。抱着尝鲜的态度,我也试了一下,发现搜索速度很快。分析了为什么这么快,主要有两点:1、资源太少了!!!,12个公众号加起来5161篇文章;2、使用Vue框架,异步加载数据。这个产品还是很好用的,推荐一下,希望能尽快添加可搜索的技术资源。

  

  最近在想采集some文章做分词。接口是vue写的,所以所有的数据都要经过接口,所以数据采集很方便,所以一时兴起,趁着产品刚刚上线,防爬机制不应该强,所以我采集Geekbang的所有公众号数据。一:文章采集

  主要分为两个步骤,采集文章链接和原文采集。

  1、采集文章链接,通过搜索界面,抓取所有文章链接

  

  从返回的数据中可以抓取到文章原文的链接,接下来就是链接到采集原文的数据了。

  2、原创资料采集

  使用scrapy框架对采集微信文章数据,共采集5151篇文章。

  

  具体代码见文末地址

  二:数据分析

  接下来,我对采集的文章做了一些简单的统计。

  1、哪个公众号写的最多文章

  infoQ 写的文章最多,998 篇,占 19.35%。StuQ以835篇排名第二,占比16.19%,EGONetworks以802篇排名第三,占比15.55%。这三个部分恰好是极客科技的三大业务。

  

  2、每天文章 帖子的总数

  随着运营的公众号越来越多,文章的数量不断攀升,2017年达到每月250多个,编辑能力非常强大。

  

  统计每天发布文章的数量:非常规律,周一到周五多,周六周日少。那些在周六和周日努力工作的人。

  

  3、文章词频统计

  对所有文章进行分词,然后统计词频。

  Top 10:我们、一、数据、技术、能、服务、使用、需要、问题、系统

  

  前 10 个单词是:我们需要一个系统来解决技术或数据问题。是在暗示什么吗?我可以开发一个供您使用吗?商机就在这里。由于分词的结果还没有调整,所以有很多常用的修饰语等等。以后再做是一项体力消耗大的工作。

  4、作者统计

  基于 文章 的作者的统计。前 10 名:StuQ、EGO、InfoQ、徐川、大家硕、陈圆圆、Q News、Indigo K & Guo Liang、Stark Academy、Daniel V Classroom。

  

  5、文章头条新闻

  文章标题的命名也反映了时间的趋势,所以我把文章的标题全部提取出来,做了分词,自定义jieba的字典,去掉了很多修饰符等等,得到了下面的结果。

  2015年:技术排名第一,这也符合Geekbang的特点。微直播和微课堂的提及很多,主要是因为StuQ的公众号上的广告太多了。当然,你也可以看到一些过去的流行词,比如互联网金融、大数据、创业、容器技术等。

  

  2016年:技术依旧稳居第一,云计算、开源等词出现,也出现了阿里、AWS、百度、京东等国内大公司。

  

  2017:变化离不开技术。同时,机器学习、深度学习、人工智能、AI等词汇的使用量有所增加,符合当下的学习热潮。

  

  从标题文章的命名来看,极客帮微信公众号的内容基本紧跟最新科技潮流。把握技术发展趋势,分析头条。

  三:总结

  本文的主要工作是数据采集和分析。对于数据采集,难度不大,用scrapy可以很快搞定。数据分析很费时间,我只做了一些简单的统计。后续会在数据的基础上做一些文本相关性分析。

  数据的展示地址,源码也已经放到github上,crawler-geekbang/geekbang at master·xuxping/crawler-geekbang·GitHub

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线