等待备案这段时间写的依据关键词手动采集的程序-问答-阿里云开发者社区-阿里云

优采云 发布时间: 2020-08-18 08:49

  等待备案这段时间写的依据关键词手动采集的程序-问答-阿里云开发者社区-阿里云

  庆祝备案通过,算是一点点小福利吧,只讲下原理,不公开程序。

  1)基础词

  以Nginx为例,当前共采集到长尾词2968个。这些长尾词要拿来到搜索引擎去搜索文章用。

  启用长尾45个,表示早已使用45个长尾词到搜索引擎去搜索文章,其中33个早已全部完成。

  点击“长尾”按钮查看所有长尾词。

  

  2)长尾词

  这个没哪些好说的,以第一个,“nginx 配置”为例,使用这个长尾词共采集到1030篇文章。

  点“审核”按钮查看所有文章。

  

  3)文章列表

  这里是所有用“nginx 配置”这个词搜索到的文章,共1030个。

  

  4)文章页

  左上角显示了汉字数目,和程序手动判别出的这篇文章的可读性,可读性越高,文章排版越整齐,过低的话,说明这个页面上的内容太可能不是一篇 “文章”,直接抛弃。

  点击发布“按钮”后,当前这篇文章会被发布到网站数据库,根据绑定的栏目ID发到指定的栏目,发布以后会跳转到网站后台这篇文章的编辑页面,因为有些文章可能须要再整理下或则重新排版。

  

  利用这个程序不需要再针对任何网站写采集规则,使用的是正文提取算法,只须要一个网址,自动提取出正文内容,优采云专用。

  为了保证文章质量,文章内容不会直接插入到网站数据库,而是先经过人工初审。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线