网站内容更新策略(搜索引擎关于搜索引擎网页更新策略的三种历史参考策略(组图))
优采云 发布时间: 2021-10-27 04:18网站内容更新策略(搜索引擎关于搜索引擎网页更新策略的三种历史参考策略(组图))
这几天一直在看一本关于搜索引擎核心技术的书。今天看到一个文章关于搜索引擎的网页更新策略。跟大家分享一下,因为我个人觉得可以加深大家对搜索引擎的理解。理解。
我就简单用我总结的语言给大家介绍一下搜索引擎是如何更新收录页面的。
背景
我们的 网站 页面之一是 收录。不可能让搜索引擎天天爬,特意检查页面有没有变化;那么如果我们对这个页面进行一定的修改,搜索引擎会怎么知道呢?很明显,某个网页被删除了或者内容发生了较大的变化,但是搜索引擎仍然对此一无所知,仍然按照旧内容进行排序,作为搜索结果提供给用户。用户体验不好不言而喻。
因此,对于已经爬取过的网页,爬虫还要负责保持快照内容与实际互联网内容同步,这取决于爬虫采用的网页更新策略!
网页更新策略
搜索引擎复用的三种网页更新策略
历史参考策略
用户体验策略
聚类抽样策略
这三种方法的顺序也可以反映搜索引擎的进步。接下来,我将简要介绍三种策略之间的区别。
历史参考策略
这种策略在外行人看来是最不可靠的。因为它是基于以下假设:过去更新频繁的网页,将来也会频繁更新;这个方法是通过判断你的网站页面的历史更新信息来估计一个网页什么时候会更新,然后再过来抓取你的网站已经收录的页面。
在哪里将更改视为更新?
不同的方法有不同的侧重点。一些研究将网页划分为不同的区域。抓取策略应忽略广告栏或导航栏等不重要区域的变化,重点检测页面核心内容的变化。
缺点:如果是第一次抓取网站的网页,则没有历史信息可供参考,更新周期无法预估。另外,如果每个网页都保存历史信息,搜索引擎也会增加很多额外的负担。
用户体验策略
这个战略思路是这样的:以用户体验为核心,即使索引的网页内容过时,也不是不可能在不影响用户体验的情况下后期更新这些过时的网页。
那么如何判断一个网页什么时候更新呢?它取决于网页内容的变化所带来的搜索质量的变化,即以搜索结果排名的变化来衡量。网页越有影响力,更新速度就越快。有的朋友可能不是很理解这句话。让我解释。首先你要明白,搜索引擎的爬虫程序和排名程序是相对独立但又密切相关的。
搜索引擎搜索到的页面质量发生变化,如内容被删除、大幅修改等,会直接导致跳出率增加、停留时间减少等(搜索质量的体现) ,从而导致页面排名下降,搜索引擎通过判断排名变化来衡量影响的大小。当然,影响包括好坏。排名上升等好的影响也是影响。
这里涉及到一个量化的问题,即在什么范围内的变化被认为是影响?用户体验策略保存网页的多个历史版本,并根据过去的每次变化对搜索质量的影响取平均值,并以此作为爬虫再次抓取网页的机会。
缺点:和第一种一样,需要保存网页的历史信息,会给搜索引擎增加额外的负担,也会出现没有历史信息的情况。
聚类抽样策略
聚类抽样的原理:网页有一些属性,根据这些属性可以预测其更新周期。具有相似属性的网页具有相似的更新周期。
所以简单的说,就是根据网页的特点,将它们聚类成不同的类别,每个类别中的网页都有一个详细的更新周期,然后从这些类别中提取出一部分最具代表性的网页,并计算出这些页面的更新周期,然后将这个更新周期应用到这个类别的所有页面。最后只需要根据页面的类别确定更新频率即可。
其实这点和我们平时判断一个网站关键词的频率的方式类似,因为判断一个网站关键词的密度多少比较合适是分析行业类别。什么是平均密度?
那么搜索引擎是根据网页的哪些属性来分类的呢?分为两类:
静态特征:页面内容、图片数量、页面大小、链接深度等十几个因素。
动态特性:反映静态特性随时间的变化,即图片数量的变化、链接的变化等。
这种更新策略的效果明显优于前两种。首先,不需要保存每个网页的历史信息。其次,对于没有历史信息的新网页也可以判断更新周期。
以上就是搜索引擎对网页的更新策略。虽然这对我们的实际操作没什么用,但是可以帮助我们进一步了解搜索引擎!后面跟大家分享一下搜索引擎原理的干货!