搜索引擎如何抓取网页( 搜索引擎更新策略的任务是决定何时重新抓取下载过的)
优采云 发布时间: 2022-02-19 13:20搜索引擎如何抓取网页(
搜索引擎更新策略的任务是决定何时重新抓取下载过的)
搜索引擎多久更新一次已经抓取的页面
搜索引擎更新策略的任务是决定何时重新抓取以前下载的网页,以使本地下载的网页尽可能与原创网页保持一致。常见的网页更新策略:
1、历史参考政策
该策略基于这样的假设,即过去频繁更新的页面将来会频繁更新。所以为了估计多久更新一次,可以参考以前网页的更新频率。
2、用户体验策略
该策略以用户体验为核心。即使本地索引页面的内容已经过时,如果不影响用户体验,以后再更新也是可以的。因此,什么时候更新网页比较好,取决于网页内容变化带来的搜索质量变化(通常通过搜索结果排名的变化来衡量)。影响越大,更新越快。
3、集群抽样调查
与前两种策略相比,它依靠历史记录来判断。如果是新站,不能根据历史数据来判断。聚类抽样是一个很好的解决方案,可以确定在没有历史数据的情况下更新多长时间。如何实现?
首先,根据页面的特点,将其聚类为不同的类别。每个类别都有类似的更新周期。从类别中抽取一部分有代表性的页面,计算更新周期,然后这个周期同样适用于类别中的其他页面,然后根据类别确定更新频率。
聚类抽样策略比前两者要好,但是很难对亿万网页进行聚类。(ps:内容摘自《这是搜索引擎核心技术详解》)
讲完了上面的原则,作为seo,你可以做一些调整,让搜索引擎更快的更新我们网页的数据。
除了保持更新频率之外,页面的一些调整(更改和创建栏目等),改善网站用户体验,都是为了加快搜索引擎收录页面的更新速度.