网站内容更新策略(搜索引擎爬虫的用户体验更新策略的历史更新)

优采云 发布时间: 2021-09-11 07:04

  网站内容更新策略(搜索引擎爬虫的用户体验更新策略的历史更新)

  搜索引擎爬虫的更新基本上应用在快照的更新上,以及搜索引擎对已爬取页面的重新爬取行为。之所以要重新爬网,基本上是因为互联网上有数以万亿计的页面。许多页面仍在变化。这种变化的前置因素导致爬虫不断更新自己的数据,所以必须重新爬取已经爬过的网页。搜索引擎爬虫的三大更新策略是什么?

  搜索引擎爬虫的历史更新策略

  所谓的历史更新策略,就是对已经爬过的网页进行重新爬取的时间限制。比如爬虫爬取了【平哥SEO】博客的首页,让搜索引擎一直可以通过获取我博客的首页。爬虫的爬取策略会调整为每3天访问我一次。的博客主页。

  这个更新的爬取策略告诉我们,频繁的网页变化会吸引蜘蛛的频繁爬取。所以在这里,如果您的网页都是静态的。这意味着如果不重新生成,对应的页面不会发生变化。

  相对来说,你的网站不太适合这种策略逻辑。因此,URL 设置为伪静态。在可以很好控制网站的打开速度的前提下,将网页本身设置为动态页面是一个不错的选择。

  

  搜索引擎爬虫的用户体验更新策略

  所谓用户体验网页更新策略,就是搜索引擎认为网页以一定的搜索词参与排名,前3页是用户经常访问的页面。那么对于这种类型的页面,抓取更新的优先级应该更高。

  对于用户来说,3页之后的网页被访问的人非常少,以后更新是可以的。因此,采用了网络爬行更新策略。

  这个策略让我们知道,一些核心的关键词 排名靠前的网页被爬虫更频繁地抓取。那么一个值得思考的问题是网站也会有一些详情页、聚合页甚至文章页来参与错词的排名。这是否意味着这次的页面抓取量也不错?

  针对这个问题,平哥通过SEO优化前的访问日志分析,确定了答案。在 80% 的情况下,情况确实如此。但是,此类页面的出现频率远低于首页、频道页面等,它们离首页更近,路径更短。

  但是我们还是可以优化我们的详情页/文章页,在该类页面上展示最新的内容,并为收录的最新内容添加爬虫爬取入口。

  搜索引擎爬虫抓取网页的采样聚类策略

  说到这个策略,让我们从字面上看“采样、聚类”。抽样是指从网站中抽取一些样本进行观察,根据这些样本的观察得出一定的结论后,对这种类型进行聚类。

  我们的网站都是由不同的类型组成的,比如列表页、商品详情页、文章页、频道页、聚合页等等,这些都是不同的类型。搜索引擎从中选取一些样本,观察一个更新周期后,应用于整个类型的方法是采样聚类的网络爬虫更新策略。

  举个例子。搜索引擎对列表页面进行采样以找到 A 列表页面。通过分析观察,发现A列表页面每2天就可以爬取一次。然后还有B、C、D列表页和A列表页同类型,因为它们的模板、导航都一样,首页下的模块也特指这四个列表页。那么它们是同类型的,所以B、C、D列表页面和A列表页面是一样的,每2天爬一次。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线