从《baidu搜索引擎优化攻略2.0》

优采云 发布时间: 2021-07-05 00:28

  

从《baidu搜索引擎优化攻略2.0》

  

  从《百度搜索引擎优化策略2.0》一文中,我们可以了解到,百度和所有搜索引擎都喜欢共同且有价值的文章。在复制粘贴技巧如此方便的今天,互联网上的内容很难拥有。随着时间的连​​续性,相同或临近的版本会越来越多,只有一个目的:都是为了交通。因此,无论版权如何,无论用户是否已经在官方网站或门户网站上浏览过,他们都会悄悄转发,以小说标题吸引读者获得流量。结果,互联网上充满了类似的页面。据统计,近似重复页数占总页数的29%,相同页数约占所有页数的22%,即相互关联的页数。相当大比例的内容是完全相同或大致接近的重复页面。这些重复页面有些是没有任何改动的副本,有些在内容上略有改动,比如同一个文章的不同版本。

  页面重复可分为以下四种:

  1、如果两个文档的内容和版式没有区别,这种重复就可以称为完整的重复页面。

  2、如果两个文档的内容相同,但规划布局不同,则称为内容复制页面。

  3、如果两个文档的某些重要内容相同,并且规划布局相同,则称为规划重复页面。

  4、如果两个文档有一些重要内容相同,但规划布局不同,则称为部分重复页面。

  搜索引擎发现相似重复页面是通过技术手段(如baiduspider)快速发现所有这些重复信息的一种手段。如何快速准确地找到这些内容上的相似页面,已经成为提高搜索引擎服务质量的关键技能之一。

  查找相似页面对搜索引擎有以下好处:

  1、 同一个页面表示同样的实用内容,所以百度可以删除这些重复的页面,以节省百度数据库的空间,从而节省资源消耗,提升用户体验,减少用户查看有价值页面的时间。

  2、 汇总同页来源网站后,没有原创内容的网站采用降权或减索引的奖惩方式,维护原创作者版权和搜索引擎数据库的通用内容。

  3、如果通过对过去采集的信息进行分析,可以提前发现重复的页面,可以在以后的页面采集过程中避免这些页面,进而提高页面的采集速度。研究表明,重复页面不会随时间发生太大变化,因此从重复页面集合中选择一些页面进行索引是很有用的。

  4、如果某个网站与其他网站相似,根据文章的思路,可以得出抄袭的网站比其他网站更有价值,搜索引擎可以习惯给这个网站更高的权重。

  实用的搜索引擎经常在爬虫过程中进行近似重复检测。下图展示了搜索引擎中近似重复检测任务的过程。当爬虫新爬取一个页面时,需要和已经建立在索引中的页面进行复制。如果判断为近似重复页面,则直接扔掉。如果发现是全新的,会添加到页面索引中。

  回顾我们上次演讲中提到的“网站相似度和页面相似度搜索”,可以看出百度星火项目已经开始展现搜索引擎去重算法的优势和必然趋势。在网站今后的建设和优化中,不要一味的扩大网站的内容,而是从质量做起,逐步赢得搜索引擎的信任。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线