伪原创相似度查询(搜索引擎识别伪原创的算法技术有很多,这里SEO培训)
优采云 发布时间: 2022-02-15 21:04伪原创相似度查询(搜索引擎识别伪原创的算法技术有很多,这里SEO培训)
搜索引擎识别的算法技术有很多伪原创,这里SEO培训简单介绍几个给大家。
1、TF/IDF算法
这是一种常用的计算相似度的算法。 TF是Term Frequency的缩写,翻译成中文就是词频,指的是某个词在文章中出现的次数; IDF是Inverse Document Frequency的缩写,中文翻译成逆文档频率,IDF越大,这个词在其他文章中出现的次数也很少,说明这个词有很好的类别区分能力.
用TF/IDF算法计算两篇文章文章后,每一篇都会生成一个内容特征向量。如果两篇文章文章的特征向量相似,则搜索引擎认为两篇文章文章的内容相似。如果两个特征向量一致,则认为两个文章是重复的。
2、信息指尖
信息指纹技术是指搜索引擎截取一段文本信息,然后调用一种特殊的算法,比如MD5,根据这组词将其转换成一组代码,这组代码就变成了识别此信息的指纹。如果两个文章的信息指纹相同,则搜索引擎认为这两个文章是重复的。该信息可能是标点符号,可能是单词,可能是句子,段落。通常一个文章会对应多个信息指纹,所以我认为简单的换词(同义词/反义词)、打倒段落的顺序等等。伪原创方法是骗不了搜索引擎的。
3、文章与网站主题的相关性
百度等搜索引擎在收录网站时已经为每个站点定义了主题区。如果某个文章的话题与整个站点的话题相关度很低,比如你的站点是化妆品评测站点,但是有一篇文章关于性能的文章的挖掘机。 文章 与整个网站主题无关的内容也很容易被搜索引擎视为重复内容。
搜索引擎喜欢独特的原创内容,这里我也提醒各位站长在部署关键词的时候要注意相关的话题,无关的文章或者网页占了一定的比例,可能会触发搜索引擎的反***机制,被降级甚至K站。
4、根据二次搜索率、跳出时间等数据判断
伪原创文章,尤其是程序生成的伪原创文章,是很差的阅读体验。可以想象,如果用户在搜索的时候点击了这种类型的文章,他们会很快跳出页面,点击其他搜索结果,或者搜索另一个关键词。搜索引擎通过数据检测用户的这种行为,也有可能判断出这个文章就是伪原创文章。
本文经编辑整理,欢迎转载。