伪原创相似度查询(Google是如何判断原创与伪原创的?(一))

优采云 发布时间: 2022-02-25 02:20

  伪原创相似度查询(Google是如何判断原创与伪原创的?(一))

  我们在做站群的时候,不可避免地会产生大量的内容。一般我们依赖采集+伪原创。谷歌对伪原创的判断优于百度。它更准确。根据老毛手上的数据,我们来看看谷歌是如何判断原创和伪原创的。

  首先我们需要掌握几个概念:

  1.相似度

  相似度是搜索引擎重用最多的算法。用得最多的是TF/IDF算法,也是一种计算相关性的算法。TF-IDF的主要意思是说:如果某个词或词组在a中,如果该词或词组在文章中频繁出现,而在其他文章中很少出现,则认为该词或短语具有良好的类别区分能力,适合分类。

  TF 词频(Term Frequency)是指给定词在文件中出现的次数。

  IDF逆文档频率(Inverse Document Frequency)是指:如果收录词条的文档越少,IDF越大,说明词条区分类别的能力很好。

  当根据TF/IDF计算出一个文章时,就形成了一个多维向量。这个向量就是这个文章的内容特征向量。当两个文章的特征向量趋于一致时,我们认为这两个文章的内容是相似的,如果一致,就说明它们是重复的。

  关于TF/IDF和向量算法的详细信息,请参考Google Blackboard的数学美12-余弦定理和新闻分类

  2.数据指纹

  当搜索引擎通过相似度采集到文章时,需要判断是否是重复的文章。经常使用数据指纹。数据指纹有很多算法。提出了>的标点,为了比较,很难想象有两个不同的文章,标点是一致的。还有一个向量的比较,就是TF词频(关键词密度)等来判断。

  这时候,你可以想象很多伪原创工具只是替换了关键词。想要替换关键词后,标点指纹不会改变,甚至TF词频也不会改变。持续的。还有一个文章的段落翻拍,确实把标点搞乱了,但是向量和词频问题依然存在。那么你可以想象这样的 伪原创 工具的价值。(它可能仍然适用于百度)

  3.代码噪音

  以上都是基于一个条件,即搜索引擎需要知道文章是什么,因为每个网站都有不同的模板和不同的代码,各种信息混杂在一起。如果能够找到文本是搜索引擎必须处理的第一件事。

  一般谷歌会区分代码的布局和噪声比,哪些是导航,哪些是文本,可以忽略一些典型代码。所以我们在制作模板的时候一定要注意。这里有个纠结点,就是整页降噪方便搜索引擎确认文字,但要适当增加文字区域,增加搜索引擎识别重复的难度。

  (老猫博客)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线