网页qq抓取什么原理(1.有哪些网页检索维护的方法主要有宽度(一))

优采云 发布时间: 2021-11-23 18:05

  网页qq抓取什么原理(1.有哪些网页检索维护的方法主要有宽度(一))

  1. 网页搜索和维护的方法有哪些?

  主要包括宽度(广度)优先,兼顾深度遍历策略、不重复爬取策略、大站优先策略、不完全PageRank策略、OCIP策略、协同爬取策略等主流网页爬取策略。详情请参考:搜索引擎爬虫网页爬行策略

  部分PageRank策略(Partial PageRank)对于下载的网页(不完整网页的一个子集),将要爬取的URL队列中的URL加入,形成一个网页集合,在这个集合内部进行PageRank计算;计算完成后,将待爬取的URL队列中的网页按照PageRank分值从高到低排序,顺序为爬虫接下来要爬取的URL列表。由于 PageRank 是全局算法,所以在所有网页下载完成后计算结果是可靠的。但是,爬虫在爬取过程中只能接触到部分网页,因此在爬取网页时是不可靠的。PageRank 是计算出来的,所以称为不完全 PageRank 策略。

  OCIP Strategy (Online Page Importance Computation) OCIP字面意思是“在线页面重要性计算”,可以看作是一种改进的PageRank算法。在算法开始之前,每个 Internet 页面都被分配了相同的值。每当一个页面 P 被下载时,P 将它拥有的值平均分配给页面中收录的链接,同时清除它自己的值。对URL队列中待抓取的网页,按照其手头的数值进行排序,数值较大的网页先下载。

  2. 网页更新策略和方法有哪些?

  常见的搜索引擎更新策略有3种:1)历史参考策略;2) 用户体验策略;3) 集群抽样策略。

  1、历史参考策略其实做了几个假设:过去更新频繁的网页,未来也会频繁更新。所以为了估计网页的更新时间,可以参考历史更新情况。

  2、用户体验策略 一般来说,搜索引擎将处理结果反馈给用户后,绝大多数用户只看前3名左右。搜索引擎可以相对频繁地更新这部分网页。

  3、聚类采样策略 该更新策略认为:网页有一些属性,根据这些属性,可以预测更新周期。具有相似属性的网页的更新周期也相似,因此可以将这些网页归为同一类别。网站 具有相同的更新频率。

  3. 什么是深度优先和广度优先?

  广度优先搜索:广度优先搜索是根据树的层次进行搜索。如果不搜索此层,则不会搜索下一层。

  

  深度优先搜索:深度优先搜索是基于树的深度,所以也称为垂直搜索。每一层只扩展一个节点,直到树的指定深度或叶节点。这称为深度优先搜索。

  

  4. 深度优先,广度优先的优缺点?它们各自的使用场景?先说一下两种算法的区别。广度优先搜索适用于所有情况的搜索,但深度优先搜索可能并不适合所有情况的搜索。因为一棵可解的问题树可能收录无限个分支,如果深度优先搜索误入无限个​​分支(即深度无限),就不可能找到目标节点。因此,深度优先搜索策略是不完整的。

  广度优先搜索适用范围:在未知树深的情况下,使用该算法是非常安全的。当树系统比较小而不很大时,最好以广度为主。

  深度优先搜索的适用范围:我刚才说深度优先搜索有其自身的缺点,但不代表深度优先搜索没有自己的价值。当树深度已知且树系统比较大时,深度优先搜索往往比广度优先搜索好,因为例如在一个8*8的骑马棋盘中,如果使用广度搜索,则必须记录所有节点的信息。这种存储量通常是计算机无法达到的。但是,如果使用深度优先搜索,则可以在确定板后释放前一个节点的内存。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线