伪原创相似度查询(享用更*敏*感*词*,让你轻松玩转NB5社区|社区)
优采云 发布时间: 2021-11-19 21:25伪原创相似度查询(享用更*敏*感*词*,让你轻松玩转NB5社区|社区)
立即注册,结交更多朋友,享受更*敏*感*词*,让您轻松畅玩NB5社区。
您需要登录才能下载或查看,还没有账号?开放注册
x
如何判断原创和伪原创:
首先我们要先掌握几个概念:
1.相似性
相似性是搜索引擎最常用的算法。最常用的算法是TF/IDF算法。这也是一种计算相关性的算法。 TF-IDF的主要含义是:如果一个词或词组在一个文章中频繁出现而在其他文章中很少出现,则认为该词或词组具有良好的分类能力,是适合分类。
TF Term Frequency 是指给定单词在文件中出现的次数。
IDF 逆文档频率(Inverse Document Frequency)是指:如果收录条目的文档越少,IDF越大,说明条目具有较好的类别区分能力。
当一篇文章文章根据TF/IDF进行计算时,就形成了一个多维向量。这个向量就是这个文章的内容特征向量。当两篇文章文章的特征向量趋于相同时,我们认为两篇文章的内容接近,如果相同,则说明它们是重复的。
TF/IDF和向量算法的详细介绍请参考谷歌黑板的数学之美12-余弦定律和新闻分类
2.数据指纹
当搜索引擎通过相似度采集文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹有很多算法。常见的如文章@文章的标点符号提出,为了对比,你很难想象有两个不同的文章,标点符号是一致的。还有一个比较向量,就是TF词频(关键词密度)等等来判断。
这时候,你可以想象有很多伪原创工具只是代替了关键词。你认为替换关键词后,标点指纹是一样的,甚至TF词频都保持不变。还有一段文章的重拍。这确实是标点符号一团糟,但向量和词频问题仍然存在。那么你可以想象这样的伪原创工具的价值。 (可能对百度有用)
3.代码噪声
上面说的都是基于一个条件,也就是搜索引擎需要知道文章是什么,因为每个网站都有不同的模板和不同的代码,各种信息混在里面同时,如果能找到文字,搜索引擎会先处理。