北京搜索引擎优化(Google是如何判断原创与伪原创的?|?)
优采云 发布时间: 2022-03-07 23:02北京搜索引擎优化(Google是如何判断原创与伪原创的?|?)
我们在做站群的时候,难免会*敏*感*词*生成大量的内容,一般依靠采集+伪原创,谷歌对伪原创的判断比较好比百度的更准确。根据老毛手上的数据,我们来看看谷歌是如何判断原创和伪原创的。首先,我们要掌握几个概念:1.Similarity 相似度是搜索引擎中复用最多的算法。用得最多的就是TF/IDF算法,也是一种计算相关性的算法,TF-IDF的主要意思是说:一个词或词组如果在一个文章中出现频繁,很少出现,则考虑在其他 文章
在站群系统的情况下,我们防止*敏*感*词*转换成大量内容,一般依靠采集+原创文章,谷歌针对原创的识别文章 比百度搜索准确得多。根据老毛掌握的数据和资料,大家似乎看到了谷歌是如何知道原创的,原创文章。
首先,我们需要掌握一些定义:
1.相似度
相似度是百度搜索引擎最重要的优化算法。用得最多的是TF/IDF优化算法,也是衡量相关性的优化算法。TF-IDF的关键意思是说:如果某个词或语句经常出现在一个文章中,而很少出现在其他文章内容中,则认为该词或语句具有区分类型的能力非常好,适合分类。
TF 词频(TermFrequency)是指给定词在文件中出现的频率。
IDF逆文档频率(InverseDocumentFrequency)是指:如果收录百度词条的文本文档越少,IDF越大,说明百度词条有很好的类型区分能力。
当基于TF/IDF计算一篇文章文章时,会生成一个多维空间向量。这个空间向量就是本文内容矩阵的特征值。当几个文章内容矩阵的特征值趋于一致的时候,大家感觉这些文章内容的内容是接近的,如果一致就说明重复了。
更多关于TF/IDF和空间向量优化算法的详细信息,请参考Google Blackboard 12-The Theorem of Cosines and News Definitions中的数学之美
2.数据信息指纹识别
百度搜索引擎根据相似度采集文章内容时,需要识别是否为重复文章内容。经常使用数据指纹。数据指纹识别有多种优化。算法,比如文章内容的标点,都写的很清楚。对比一下,很难想象文章内容有好几个不同,标点符号是一致的。还有一个空间向量的比较,就是TF词频(关键词搜索量)来区分。
这一刻,你可以想象很多伪原创只是换了关键词。更改关键字后,标点指纹识别不会改变,甚至TF词频也不会改变。还有重拍文章的内容的文章段,确实把标点搞乱了,但是空间向量和词频的问题还是存在的。那么很明显这样的伪原创是有使用价值的。(百度搜索依然有效)
3.编码噪音
上面说的都是基于一个标准,就是百度搜索引擎需要知道文章的内容是什么,因为每个网站的模板不同,编码也不同,各种信息内容混杂在一起,如果能找到文章文字,那是百度搜索引擎首先要解决的问题。
一般谷歌会根据代码的合理布局和噪声比来区分,什么是导航栏,什么是文章文本,可以忽略一些典型的代码。那么我们在制作模板的时候就需要注意了。这里有一个顾虑,就是整个网页的降噪,方便百度搜索引擎进行文章文本的判断,但是文章文本区域被适度添加到提高百度搜索引擎识别的重现性。难度。
转载请注明: 饭推站 » 北京seo论坛:方便百度搜索引擎开发文章文字确认!