上海搜索引擎优化(从《baidu搜索引擎优化攻略2.0》一文)
优采云 发布时间: 2021-09-07 03:20上海搜索引擎优化(从《baidu搜索引擎优化攻略2.0》一文)
从《百度搜索引擎优化策略2.0》一文中我们可以了解到,百度和所有搜索引擎都喜欢共同且有价值的文章。在复制粘贴技巧如此方便的今天,互联网上的内容很难拥有。随着时间的连续性,相同或临近的版本会越来越多,只有一个目的:都是为了交通。所以他们不关心版权,不管用户是在官方网站还是门户网站上看到过,他们都悄悄转发,以小说标题吸引读者获得流量。结果,互联网上充斥着许多类似的页面。据统计,近似重复页数占总页数的29%,相同页数约占所有页数的22%,即相互关联的页数。相当一部分内容是相同或大致相似的重复页面。这些重复的页面,有些是没有任何改动的副本,有些在内容上略有改动,比如同一个文章的不同版本。
页面重复可分为以下四种:
1、如果两个文档的内容和布局没有区别,这种重复可以称为页面的完整重复。
2、如果两个文档的内容相同,但规划布局不同,则称为内容复制页面。
3、如果两个文档的某些重要内容相同,并且规划布局相同,则称为规划重复页面。
4、如果两个文档的某些重要内容相同,但规划布局不同,则称为部分重复页面。
搜索引擎发现相似重复页面是通过技术手段(如baiduspider)快速发现所有这些重复信息的一种手段。如何快速找到这些内容相似的页面,现在已经成为提高搜索引擎服务质量的一种方式。关键技能之一。
查找相似页面对搜索引擎有以下好处:
1、 同一个页*敏*感*词*有相同的实用内容,因此百度可以删除这些重复的页面,以节省百度数据库的空间,从而节省资源消耗,提高用户体验,减少用户查看有价值页面的时间。
2、 对同页源网站进行归纳整理后,没有原创内容的网站采用降权或降低索引的奖惩方式,维护@的版权原创作者和搜索引擎数据库的共同内容。
3、如果通过对过去采集的信息进行分析,能够提前发现重复的页面,就可以在以后的页面采集过程中避开这些页面,进而提高页面的采集速度。研究表明,重复页面不会随时间发生太大变化,因此从重复页面集合中选择一些页面进行索引是很有用的。
4、如果某个网站与其他网站相似,根据文章的思路,可以得出抄袭的网站比其他网站更有价值,搜索引擎可以习惯给这个网站更高的权重。
实用的搜索引擎经常在爬虫过程中进行近似重复检测。下图展示了搜索引擎中近似重复检测任务的过程。当爬虫新爬取一个页面时,需要和已经建立在索引中的页面进行复制。如果判断为近似重复页面,则直接扔掉。如果发现是全新的,会添加到页面索引中间。
回顾我们在上一讲中提到的“网站相似度和页面相似度探索”,可以看到百度星火项目已经开始展现搜索引擎去重算法的优势和必然趋势。在网站今后的建设和优化过程中,不要一味的扩大网站的内容,而是从质量做起,逐步赢得搜索引擎的信任。