搜索引擎蜘蛛系统中待爬取URL队列中的排列顺序

优采云发布时间: 2021-08-26 01:06

　　在搜索引擎蜘蛛系统中，要爬取的URL队列是一个非常重要的部分。蜘蛛需要爬取的网页的网址排列成队列结构。调度器每次从队列的头部取出某个 URL。将页面内容发送给网页下载器，每个新下载的页面中收录的URL都会被追加到待抓取的URL队列的末尾，从而形成一个循环。整个爬虫系统可以说是由这个队列驱动的。同样，我们的网站每天都要经过这样一个队列，供搜索引擎抓取。

　　那么要爬取的URL队列中页面URL的顺序是如何确定的呢？上面我们说新下载页面中收录的链接被附加到队列的末尾。这当然是一种确定队列的 URL 顺序的方法，但它不是唯一的方法。事实上，可以采用许多其他技术来实现这一点。要抓取的 URL 已排序。那么搜索引擎蜘蛛根据什么样的策略进行爬取呢？下面我们来做更深入的分析。

　　小节一、width 优化遍历策略

　　宽度优化遍历是一种非常简单直观的遍历方法，历史悠久，一出现搜索引擎爬虫就被采用。新提出的爬取策略经常使用这种方法作为比较的基准，但需要注意的是，这种策略也是一种非常强大的方法。许多新方法的实际效果昨天还没有看到。比宽度优化的遍历策略要好，到目前为止，这种方法也是很多实际爬虫系统采用的首选爬虫策略。网页的抓取顺序基本上是按照网页的重要性排序的。为此，有研究人员认为，如果一个网页收录很多入站链接，则更容易被宽度优化遍历策略提早抓取，入站链接的数量从侧面反映了网页的重要性，即，实际上，宽度优化遍历策略隐含了一些网页优化级别的假设。

　　第二、不全页排名策略

　　PageRank 是一种众所周知的链接分析算法，可用于衡量网页的重要性。自然可以想到用PageRank的思想来对URL优化等级进行排名。但是这里有一个问题。 PageRank 是一种全局算法，这意味着当所有网页都被下载时，计算结果是可靠的。爬虫的目的是下载网页，运行时只能看到部分网页。因此，爬行阶段的网页无法获得可靠的 PageRank 分数。对于下载的网页，在待抓取的网址队列中添加一个网址，形成一个网页集合，并计算该集合中的PageRank。计算完成后，根据PageRank分数计算待抓取的URL队列中的网页。按高低排序，得到的序列就是爬虫接下来应该依次爬取的URL列表。这就是为什么它被称为“不完整的 PageRank”。

　　第三、OPIC策略（在线页面重要性计算）

　　OPIC 字面意思是“在线页面重要性计算”，可以看作是一种改进的 PageRank 算法。在算法开始之前，每个互联网页面都被给予相同数量的*敏*感*词*。每当一个页面 P 被下载时，P 就会将它拥有的*敏*感*词*平均分配给该页面收录的链接页面，并且氢自身的*敏*感*词*将被清空。对于要爬取的URL队列中的网页，按照手头*敏*感*词*的多少进行排序，首先下载*敏*感*词*最多的网页。从大框架来看，OPIC与PageRank的思路基本一致。区别在于：每次都需要迭代PageRank。计算，而 OPIC 策略不需要迭代过程。因此计算速度比PageRank快很多，适合实时计算。同时，PageRank在计算的时候，有一个没有链接关系的网页的远程跳转过程，而OPIC没有这个计算因素。实验结果表明，OPIC是一种较好的重要性度量策略，效果略好于宽度优化遍历策略。

　　四、大站优化策略

　　大部分优化策略很简单：以网站为单位选择网页的重要性，将要爬取的URL队列中的网页按照网站进行分类，如果有网站等待下载顶多优化先下载这些链接，本质思路倾向于先下载大的网站。因为大网站通常收录更多页面。鉴于*敏*感*词*的网站往往是知名公司的内容，而且他们的网页一般都是高质量的，这个想法很简单，但是有一定的依据。实验表明，该算法的效果略优于宽度优先遍历策略。

　　第五、网页更新策略

　　互联网的动态是其显着特征。随时出现新页面，更改页面内容或删除现有页面。对于爬虫来说，并不是在本地爬取网页，即使完成了任务，也必须体现互联网的动态性。本地下载的网页可以看作是互联网网页的镜像，爬虫应该尽量保证它们的一致性。可以假设一种情况：某个网页被删除或者内容发生了重大变化，搜索引擎对此一无所知，仍然按照旧内容进行排序，作为搜索结果提供给用户记录。用户体验这是可怕的和不言而喻的。因此，对于已经爬取过的网页，爬虫还要负责保持其内容与网页内容同步，这取决于爬虫所使用的网页更新策略。网页更新策略的任务是决定何时重新抓取之前下载过的网页，使本地下载的网页内容尽可能与互联网上的原创网页一致。常用的网页更新策略有3种：历史参考策略、用户体验策略和聚类抽样策略。

　　(1）什么是历史参考策略？

　　历史参考策略是最直观的更新策略。它基于这样一个假设，即过去经常更新的网页将来也会经常更新。所以为了估计一个网页什么时候会更新，你可以通过参考它的历史更新做出决定。

　　由此可见，我们的网站更新一定要定期进行，这样搜索引擎蜘蛛才能更好的关注你的网站，把握你的网站。很多人在更新网站的时候，不知道为什么要定期更新。这就是它真正存在的原因。

　　(2）什么是用户体验策略？

　　这是显而易见的，每个人都知道。一般来说，搜索引擎用户提交一个查询结果后，可能会有上千条相关的搜索结果，但是用户没有耐心查看排在后面的搜索结果，往往只屏蔽搜索的前三页内容。用户体验策略是利用搜索引擎用户的这个特性来设计更新策略。

　　(3）clustering 抽样策略

　　上面介绍的两种网页更新策略，很大程度上依赖于网页的历史更新信息，因为这是后续计算的基础。但实际上，为了保存每个网页的历史信息，搜索系统会增加额外的负担。从另一个角度来说，如果是第一个被爬取的网页，由于没有历史信息，无法按照这两个思路估计更新周期，聚类采样，提出策略来解决上述缺点。网页一般都有一些属性。基于这些属性，可以预测更新周期。具有信念属性的网页更新周期类似。

　　在简单了解了搜索引擎蜘蛛的爬取过程和爬取策略后，您是否应该考虑一下？尝试更改您的网站？以上部分原因表明搜索引擎的更新是有规律的、有条理的。如果我们想更加适应搜索引擎的更新原理和蜘蛛爬取的原理，就应该从比较基础的做法入手，进行全面的分析总结。 .

0

2021-08-26

搜索引擎优化含义

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎蜘蛛系统中待爬取URL队列中的排列顺序

0 个评论

发起人

AI时代内容工厂

搜索引擎蜘蛛系统中待爬取URL队列中的排列顺序

0 个评论

发起人

相关问题