北京搜索引擎优化(Google是如何判断原创与伪原创的？|？)

优采云发布时间: 2022-03-07 23:02

　　我们在做站群的时候，难免会*敏*感*词*生成大量的内容，一般依靠采集+伪原创，谷歌对伪原创的判断比较好比百度的更准确。根据老毛手上的数据，我们来看看谷歌是如何判断原创和伪原创的。首先，我们要掌握几个概念：1.Similarity 相似度是搜索引擎中复用最多的算法。用得最多的就是TF/IDF算法，也是一种计算相关性的算法，TF-IDF的主要意思是说：一个词或词组如果在一个文章中出现频繁，很少出现，则考虑在其他文章

　　在站群系统的情况下，我们防止*敏*感*词*转换成大量内容，一般依靠采集+原创文章，谷歌针对原创的识别文章比百度搜索准确得多。根据老毛掌握的数据和资料，大家似乎看到了谷歌是如何知道原创的，原创文章。

　　首先，我们需要掌握一些定义：

　　1.相似度

　　相似度是百度搜索引擎最重要的优化算法。用得最多的是TF/IDF优化算法，也是衡量相关性的优化算法。TF-IDF的关键意思是说：如果某个词或语句经常出现在一个文章中，而很少出现在其他文章内容中，则认为该词或语句具有区分类型的能力非常好，适合分类。

　　TF 词频（TermFrequency）是指给定词在文件中出现的频率。

　　IDF逆文档频率（InverseDocumentFrequency）是指：如果收录百度词条的文本文档越少，IDF越大，说明百度词条有很好的类型区分能力。

　　当基于TF/IDF计算一篇文章文章时，会生成一个多维空间向量。这个空间向量就是本文内容矩阵的特征值。当几个文章内容矩阵的特征值趋于一致的时候，大家感觉这些文章内容的内容是接近的，如果一致就说明重复了。

　　更多关于TF/IDF和空间向量优化算法的详细信息，请参考Google Blackboard 12-The Theorem of Cosines and News Definitions中的数学之美

　　2.数据信息指纹识别

　　百度搜索引擎根据相似度采集文章内容时，需要识别是否为重复文章内容。经常使用数据指纹。数据指纹识别有多种优化。算法，比如文章内容的标点，都写的很清楚。对比一下，很难想象文章内容有好几个不同，标点符号是一致的。还有一个空间向量的比较，就是TF词频（关键词搜索量）来区分。

　　这一刻，你可以想象很多伪原创只是换了关键词。更改关键字后，标点指纹识别不会改变，甚至TF词频也不会改变。还有重拍文章的内容的文章段，确实把标点搞乱了，但是空间向量和词频的问题还是存在的。那么很明显这样的伪原创是有使用价值的。（百度搜索依然有效）

　　3.编码噪音

　　上面说的都是基于一个标准，就是百度搜索引擎需要知道文章的内容是什么，因为每个网站的模板不同，编码也不同，各种信息内容混杂在一起，如果能找到文章文字，那是百度搜索引擎首先要解决的问题。

　　一般谷歌会根据代码的合理布局和噪声比来区分，什么是导航栏，什么是文章文本，可以忽略一些典型的代码。那么我们在制作模板的时候就需要注意了。这里有一个顾虑，就是整个网页的降噪，方便百度搜索引擎进行文章文本的判断，但是文章文本区域被适度添加到提高百度搜索引擎识别的重现性。难度。

　　转载请注明：饭推站 » 北京seo论坛：方便百度搜索引擎开发文章文字确认！

0

2022-03-07

北京搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

北京搜索引擎优化(Google是如何判断原创与伪原创的？|？)

0 个评论

发起人