可采集文章词汇统计汇总方法有2种,1是用函数
优采云 发布时间: 2021-07-13 05:02可采集文章词汇统计汇总方法有2种,1是用函数
可采集文章词汇统计汇总方法有2种,1是用函数,目前我知道的有sumproduct()、match()和substitute()等等。2是手动采集,目前我知道的主要有stringi函数、freqmode函数、randbetween函数等等。
英文文章内容主要就是分词、句子切分、词频统计。词频统计和分词,web端都可以实现,小爬虫可以直接在scrapy项目下做。最新有基于apache2中间件的一套爬虫系统可以docker安装,解决内容相似度统计的问题,
urllib2或者正则表达式即可。
yarn可以实现比较大的同步集群,用于读取大文件的量估计相对高一些,小的话估计最多2000。
相似度有几个方面:
1、文本摘要;
2、提取相似的区域;
3、去重。你可以把所有网站的内容进行一个大文件。先对大文件,摘要一下。或者把内容复制到提取大文件的目录下,再提取匹配的文本。这样可以做到一次性处理,不需要重复提取。另外,去重。如果网站,有重复的文本,可以去除重复的数据。这样的处理比较简单,比如你的同事提到的全国25所学校,或者高考的内容,一些热门新闻,热门社区。
要实现
1、3里面的话,需要搞n多的网站,n多次提取数据并去重。一般我不建议去做的。