网站内容更新策略(搜索引擎关于搜索引擎网页更新策略的三种历史参考策略(组图))
优采云 发布时间: 2022-02-24 01:20网站内容更新策略(搜索引擎关于搜索引擎网页更新策略的三种历史参考策略(组图))
这几天一直在看一本关于搜索引擎核心技术的书。今天看到一个文章,讲的是搜索引擎网页的更新策略。理解。
我将简单地用我自己总结的语言给大家介绍一下,搜索引擎是如何更新已经收录的页面的。
背景
我们网站的一个页面已经是收录了,搜索引擎不可能每天都去爬取来查看页面是否有变化;那么如果我们对这个页面进行某些修改,搜索引擎会怎么知道呢?很明显,一个网页被删除或者内容发生了重大变化,但搜索引擎却没有意识到这一点,仍然按照旧的内容进行排序,作为搜索结果提供给用户。用户体验差是不言而喻的。
因此,对于已经爬取的网页,爬虫还负责保持快照内容与互联网的实际内容保持同步,这取决于爬虫采用的网页更新策略!
网页更新策略
搜索引擎复用的三种网页更新策略
历史参考政策
用户体验策略
整群抽样策略
这三种方式的先后顺序也可以反映搜索引擎的进步。接下来,我将简要介绍三种策略之间的区别。
历史参考政策
通俗地说,这种策略是最不可靠的。因为它是基于以下假设:过去经常更新的网页,将来也会经常更新;这个方法是通过判断你的网站页面的历史更新信息来估计一个网页什么时候会更新,然后过来重新爬取你的网站页面中已经有收录的页面。
哪些更改算作更新?
不同的方法有不同的侧重点。一些研究将网页划分为不同的区域。爬取策略应忽略广告栏或导航栏等不重要区域的变化,重点检测页面核心内容的变化。
缺点:如果是第一次抓取网站的网页,没有历史信息可供参考,更新周期无法预估。此外,如果为每个网页保存历史信息,搜索引擎会增加很多额外的负担。
用户体验策略
这个策略的思路是:以用户体验为核心,即使被索引的网页内容已经过时,在不影响用户体验的情况下,以后更新这些过时的网页也不是不可能的。
那么如何确定网页何时也更新呢?取决于网页内容变化带来的搜索质量变化,即以搜索结果排名的变化来衡量,影响力越大的页面更新速度越快。有的朋友可能对这句话不是很了解。让我再解释一下。首先你要明白,一个搜索引擎的爬虫程序和排名程序是相对独立但又密切相关的。
搜索引擎搜索到的页面质量的变化,如内容被删除、大改等,会直接导致跳出率上升、停留时间减少等(搜索质量的体现) ,导致页面排名下降,搜索引擎通过判断排名变化来衡量影响的大小。当然,影响有好有坏,好的影响,比如排名上升,也是一种影响。
这里涉及一个量化的问题,即变化在多大程度上算作影响?用户体验策略保存网页的多个历史版本,根据每次变化对过去搜索质量的影响取平均值,作为爬虫再次爬取网页的时间。
缺点:和第一种一样,需要保存网页的历史信息,会给搜索引擎增加额外的负担,也会出现没有历史信息的情况。
整群抽样策略
聚类抽样原理:网页具有一些属性,根据这些属性可以预测其更新周期。具有相似属性的网页具有相似的更新周期。
所以简单来说,根据网页的特点,将它们聚类到不同的类别中,每个类别中的网页都有一个详细的更新周期,然后从这些类别中提取出一部分最具代表性的网页,并计算这些页面的更新周期,然后将此更新周期应用到该类别中的所有页面。归根结底,这只是根据其类别确定页面更新频率的问题。
其实这和我们平时判断一个网站的关键词的频率的方式差不多,因为判断一个网站的关键词的密度有多合适来分析行业。平均密度是多少?
那么搜索引擎是如何对网页进行分类的呢?分为两类:
静态特征:页面内容、图片数量、页面大小、链接深度等十几个因素。
动态特征:反映静态特征随时间的变化,即图片数量的变化、链接的变化等。
这种更新策略的效果明显优于前两种。首先,不需要保存每个网页的历史信息。其次,对于没有历史信息的新网页,也可以确定更新周期。
以上就是搜索引擎对网页的更新策略。虽然这对我们的实际操作没什么用,但是可以帮助我们进一步了解搜索引擎!后面会跟大家分享一下搜索引擎原理的干货!