怎样抓取网页数据(3.2最佳优先搜索策略最佳优先优先策略(组图))
优采云 发布时间: 2022-01-29 02:12怎样抓取网页数据(3.2最佳优先搜索策略最佳优先优先策略(组图))
整理自网络,很有参考价值!
另一种描述方式是构建目标域的本体或字典,用于从语义角度分析主题中不同特征的重要性。
3、网络搜索策略
网页抓取策略可以分为三种类型:深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫被困的问题。目前,广度优先和最佳优先方法很常见。
3.1 广度优先搜索策略
广度优先搜索策略是指在爬取过程中,完成当前一级搜索后,再进行下一级搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网页过滤技术相结合,首先采用广度优先策略抓取网页,然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加,大量无关的网页会被下载过滤,算法效率会变低。
3.2 最佳优先搜索策略
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略,因为最佳优先策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,从而跳出局部最优点。在第 4 节中,将结合网页分析算法进行详细讨论。研究表明,这样的闭环调整可以将不相关页面的数量减少 30% 到 90%。
4、网页分析算法
网页分析算法可以分为三类:基于网络拓扑、基于网页内容和基于用户访问行为。
4.1 基于网络拓扑的分析算法
基于网页之间的链接,通过已知的网页或数据,评估与其有直接或间接链接关系的对象(可以是网页或网站等)的算法。进一步分为三种:网页粒度、网站粒度和网页块粒度。
4.1.1 网页粒度分析算法
PageRank 和 HITS 算法是最常见的链接分析算法。两者都是通过网页间链接度的递归归一化计算得到每个网页的重要性。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在性,但忽略了大部分用户访问的目的性,即网页与查询主题链接的相关性。针对这个问题,HITS算法提出了两个关键概念:权威网页(authority)和中心网页(hub)。
基于链接的爬取问题是相关页面的主题组之间的隧道现象,即爬取路径上很多离题的页面也指向目标页面,局部评价策略中断了爬取行为当前路径。参考文献[21]提出了一种基于反向链接(BackLink)的层次上下文模型(Context Model),用于将目标网页一定物理跳半径内的网页拓扑图的中心Layer 0描述为目标网页。网页根据指向目标网页的物理跳数进行层次划分,外层网页到内层网页的链接称为反向链接。
4.1.2 网站粒度分析算法
网站粒度资源发现和管理策略也比网页粒度更简单有效。网站粒度爬取的关键是