搜索引擎优化自学(做站这么久感触最深的就是原创文章在搜索引擎的眼里越来越)
优采云 发布时间: 2021-12-13 00:11搜索引擎优化自学(做站这么久感触最深的就是原创文章在搜索引擎的眼里越来越)
站了这么久,最深的感受就是原创文章在搜索引擎眼中越来越重要。负责多个企业网站的seo日常优化。其中一个网站过去的平均每日 IP 为两三千。但是在一段时间内,网站的内容质量不够好,导致网站被降级。长尾关键词的流量下降了一半以上,网站的流量也下降了近一半。经过我的努力原创,网站现在运行良好,并逐渐恢复稳定。在这个“内容为王”的时代,想要网站在搜索引擎上有好的表现,就必须在内容上下功夫。
但是,很多seo人员都深刻认识到,长期维护原创的内容并不是一件容易的事。于是各种伪原创、抄袭等策略被站长们利用。这些方法真的有效还是自欺欺人?今天给大家分享一下搜索引擎关于确定重复内容的知识。
一、搜索引擎为什么要主动处理重复内容?
1、节省空间和时间来抓取、索引和分析内容
简单来说,搜索引擎的资源是有限的,但用户的需求是无限的。大量的重复内容消耗了搜索引擎的宝贵资源,因此必须从成本的角度来处理重复内容。
2、有助于避免重复采集重复内容
从已经识别和采集的内容中,汇总出最符合用户查询意图的信息,既可以提高效率,又可以避免重复采集重复的内容。
3、 重复频率可以作为判断优秀内容的标准
既然搜索引擎可以识别重复的内容,当然可以更有效地识别出哪些内容是原创 的,哪些是高质量的。重复频率越低,原创 内容的质量就越高。高的。
4、提升用户体验
其实这也是搜索引擎最重要的一点。只有处理重复的内容,将更多有用的信息呈现给用户,用户才能购买。
二、重复内容在搜索引擎眼中的表现有哪些?
1、 格式和内容都差不多。这种情况在电商网站中比较常见,盗图无处不在。
2、只有格式相似。
3、只有内容相似。
4、 每个部分的格式和内容都差不多。这种情况通常比较常见,尤其是业务类型网站。
三、搜索引擎如何判断重复内容?
1、 一般的基本判断原则是将每一页的数字指纹一一比对。这种方法虽然可以找到一些重复的内容,但它的缺点是资源消耗大,运算速度慢,效率低。
2、基于全局特征的I-Match
该算法的原理是在评分前对文本中出现的所有单词进行排序。目的是删除文中不相关的关键词,保留重要的关键词。这种去重的方式,效果显着。比如我们在伪原创时,可能会互换文章的词句。这种方法根本不会欺骗I-Match算法,它仍然会判断重复。
3、基于停用词的Spotsig
如果文档中使用了大量停用词,如情态助词、副词、介词、连词等,都会对有效信息产生干扰。搜索引擎会在去重过程中删除这些停用词,然后进行文档匹配。. 因此,我们不妨在优化时减少停用词的使用频率,增加页面关键词的密度,更有利于搜索引擎的抓取。
4、基于多个哈希的Simhash
这个算法涉及几何原理,解释起来比较费力。简单地说,相似的文本具有相似的哈希值。如果两个文本的 simhash 越接近,即汉明距离越小,则文本越相似。因此,将大量文本中检查重复的任务转化为如何快速判断大量simhash中是否存在汉明距离较小的指纹。我们只需要知道,通过这个算法,搜索引擎可以在很短的时间内对大型网页进行近似重复检查。目前,该算法在识别效果和查重效率上相辅相成。
本文由电信400原创转载,欢迎转载。