(搜索引擎的四种抓取网页的策略(一)_光明网)

优采云 发布时间: 2022-03-12 19:04

  (搜索引擎的四种抓取网页的策略(一)_光明网)

  这篇文章主要解释了搜索引擎蜘蛛爬虫的工作原理,包括它的四种爬取策略。

  首先,搜索引擎的蜘蛛抓取网页是有一定规则的,不会随便抓取网页的。此外,蜘蛛通过超链接抓取网页。正如我们刚才所说,搜索引擎有四种类型的爬取。网页的策略,我们将一一讲解。

  深度优先

  所谓深度优先,就是蜘蛛在一个页面上找到第一个超链接,然后去爬这个页面,当爬到第二个页面的时候,在第二个页面上找到第一个超链接,然后跟着到下一个页。往下爬,如下图:

  深度优先导致蜘蛛抓取的网页质量越来越低,并且在传递 网站 权重方面也存在根本问题。

  广度优先

  在深度优先方面,搜索引擎有一个根本问题。紧接着,搜索引擎又推出了蜘蛛爬行的第二种策略,即广度优先。宽度优先意味着蜘蛛将首先将所有链接放在此页面上。爬一次,然后按照这些链接往下走,如下图:

  但是广度优先还有一个问题,就是蜘蛛爬行的效率和质量。

  先宽后深——重量优先

  现在的搜索引擎是宽度和深度的结合优先。蜘蛛爬取网页时,会先爬取页面上的所有链接,然后根据这些ULR的权重进行判断。URL 的权重高,则使用深度优先,如果 URL 权重低,则使用宽度优先或不爬取。

  重温爬取策略

  重温爬取策略是最后一个。搜索引擎蜘蛛爬取完这个网页后,会根据这个页面的权重进行判断,包括它的更新频率、更新质量、外链数量等,然后对于权重较高的页面,蜘蛛就会来返回并在短时间内重新爬行。比如新浪网的权重很高,搜索引擎蜘蛛会在几秒钟内重新抓取。对于一些权重较低的页面,比如很长时间没有更新的页面,蜘蛛会在很长一段时间后抓取它们。比如我们经常搜索的百度大更新,蜘蛛会抓取一些低权重的页面。所有的爬取,总的来说,百度的大更新,一个月一次。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线