可采集文章词汇统计汇总方法有2种,1是用函数

优采云 发布时间: 2021-07-13 05:02

  可采集文章词汇统计汇总方法有2种,1是用函数

  可采集文章词汇统计汇总方法有2种,1是用函数,目前我知道的有sumproduct()、match()和substitute()等等。2是手动采集,目前我知道的主要有stringi函数、freqmode函数、randbetween函数等等。

  英文文章内容主要就是分词、句子切分、词频统计。词频统计和分词,web端都可以实现,小爬虫可以直接在scrapy项目下做。最新有基于apache2中间件的一套爬虫系统可以docker安装,解决内容相似度统计的问题,

  urllib2或者正则表达式即可。

  yarn可以实现比较大的同步集群,用于读取大文件的量估计相对高一些,小的话估计最多2000。

  相似度有几个方面:

  1、文本摘要;

  2、提取相似的区域;

  3、去重。你可以把所有网站的内容进行一个大文件。先对大文件,摘要一下。或者把内容复制到提取大文件的目录下,再提取匹配的文本。这样可以做到一次性处理,不需要重复提取。另外,去重。如果网站,有重复的文本,可以去除重复的数据。这样的处理比较简单,比如你的同事提到的全国25所学校,或者高考的内容,一些热门新闻,热门社区。

  要实现

  1、3里面的话,需要搞n多的网站,n多次提取数据并去重。一般我不建议去做的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线