伪原创相似度查询(Java开发中常见的计算相似度的几种类型)

优采云 发布时间: 2021-11-21 08:08

  伪原创相似度查询(Java开发中常见的计算相似度的几种类型)

  1、信息指纹技术是指搜索引擎截取一段文本信息,然后根据这组词调用特殊的算法,如MD5,将其转换为一组代码,这组代码就成为识别这些信息的指纹。如果两个文章的信息指纹相同,则搜索引擎认为这两个文章是重复的。该信息可以是标点符号、单词或句子或段落。通常一篇文章的文章会对应多个信息指纹,所以网络营销认为简单的换词(同义/反义)、打倒段落顺序等,伪原创是骗不了搜索引擎的。

  2、TF/IDF 算法 这是计算相似度的常用算法。 TF是Term Frequency的缩写,翻译成中文就是词频,指的是一个词在文章中出现的次数; IDF是Inverse Document Frequency的缩写,中文翻译成逆文档频率,IDF越大,说明这个词在其他文章中出现的次数很少,说明这个词有很好的区分类别的能力。使用TF/IDF算法计算出两个文章后,各自生成一个内容特征向量。如果两个文章的特征向量相似,则搜索引擎认为这两个文章的内容相似。如果两个特征向量相同,则认为两个文章是重复的。

  3、文章 与网站主题的相关性 百度等搜索引擎在收录网站时已经划定了每个网站的主题范围。如果一个文章的话题和整个网站的话题关联度很低,比如你的网站是化妆品评测网站,但是有一篇文章的文章讲挖掘机的性能与整个网站主题无关的文章也很容易被搜索引擎视为重复内容。搜索引擎喜欢原创的独特内容。我也提醒站长在部署关键词时要注意与主题相关的、不相关的文章或网页。在一定程度上可能会触发搜索引擎的反作弊机制,被降级甚至K站。

  4、从二次搜索率、跳出时间等数据中学习确定伪原创文章,特别是程序生成的伪原创文章,其阅读体验很差。可以想象,如果用户在搜索时点击了这种文章,他肯定会快速跳出页面,点击其他搜索结果,或者搜索另一个关键词。搜索引擎通过数据监控用户的这种行为,也可能判断这个文章是伪原创文章。

  看了上面的分析,站长朋友应该明白,像伪原创这样简单的替换对网站弊大于利。就算做伪原创,也需要做深度处理。 伪原创,在借鉴他人意见的基础上进行总结分析,使文章所写的内容对用户有价值,被搜索引擎认可。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线