可采集文章词汇统计汇总方法有2种，1是用函数

优采云发布时间: 2021-07-13 05:02

　　可采集文章词汇统计汇总方法有2种，1是用函数，目前我知道的有sumproduct()、match()和substitute()等等。2是手动采集，目前我知道的主要有stringi函数、freqmode函数、randbetween函数等等。

　　英文文章内容主要就是分词、句子切分、词频统计。词频统计和分词，web端都可以实现，小爬虫可以直接在scrapy项目下做。最新有基于apache2中间件的一套爬虫系统可以docker安装，解决内容相似度统计的问题，

　　urllib2或者正则表达式即可。

　　yarn可以实现比较大的同步集群，用于读取大文件的量估计相对高一些，小的话估计最多2000。

　　相似度有几个方面：

　　1、文本摘要；

　　2、提取相似的区域；

　　3、去重。你可以把所有网站的内容进行一个大文件。先对大文件，摘要一下。或者把内容复制到提取大文件的目录下，再提取匹配的文本。这样可以做到一次性处理，不需要重复提取。另外，去重。如果网站，有重复的文本，可以去除重复的数据。这样的处理比较简单，比如你的同事提到的全国25所学校，或者高考的内容，一些热门新闻，热门社区。

　　要实现

　　1、3里面的话，需要搞n多的网站，n多次提取数据并去重。一般我不建议去做的。

0

2021-07-13

可采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

可采集文章词汇统计汇总方法有2种，1是用函数

0 个评论

发起人

AI时代内容工厂

可采集文章词汇统计汇总方法有2种，1是用函数

0 个评论

发起人

相关问题