网页抓取数据百度百科(现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征)
优采云 发布时间: 2021-11-18 10:08网页抓取数据百度百科(现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征)
爬取目标分类
来自:百度百科
爬取目标的描述和定义是决定如何制定网页分析算法和网址搜索策略的基础。网页分析算法和候选网址排序算法是决定搜索引擎提供的服务形式和网页抓取行为的关键。这两部分的算法是密切相关的。
现有的聚焦爬虫对爬取目标的描述可以分为三种类型:基于目标网页的特征、基于目标数据模型和基于领域概念。
基于登陆页面特征
爬虫根据目标网页的特征抓取、存储和索引的对象一般为网站或网页。根据*敏*感*词*样品的获取方式,可分为:
(1) 预先给定的初始抓取*敏*感*词*样本;
(2) 预先给定的网页分类目录和分类目录对应的*敏*感*词*样本,如Yahoo!分类结构等;
(3) 由用户行为决定的爬取目标示例,分为:
(a) 用户浏览时显示标记的抓样;
(b) 通过用户日志挖掘获取访问模式和相关样本。
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等。
基于目标数据模式
基于目标数据模式的爬虫是针对网页上的数据,抓取的数据一般必须符合一定的模式,或者可以转化或映射为目标数据模式。
基于领域的概念
另一种描述方法是建立目标领域的本体或字典,用于从语义角度分析主题中不同特征的重要性。
网络搜索策略
网络爬取策略可分为深度优先、广度优先和最佳优先。深度优先在很多情况下会导致爬虫被困,目前最常用的方法是广度优先和最佳优先方法。
广度优先搜索
广度优先搜索策略是指在爬取过程中,当前一级搜索完成后,再进行下一级搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索的方法。也有许多研究将广度优先搜索策略应用于聚焦爬虫。基本思想是,距离初始 URL 一定链接距离内的网页具有很高的主题相关性概率。另一种方法是将广度优先搜索与网络过滤技术相结合。首先使用广度优先策略抓取网页,然后过滤掉不相关的网页。这些方法的缺点是随着抓取网页的增加,
最佳优先搜索
最佳优先级搜索策略根据一定的网页分析算法预测候选网址与目标网页的相似度或与主题的相关性,选择一个或几个评价最好的网址进行爬取。它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最好的优先级策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,才能跳出局部最佳点。将在第 4 节中结合网页分析算法进行详细讨论。
深度优先搜索
深度优先搜索策略从起始网页开始,选择一个网址进入,分析该网页中的网址,选择一个进入。这样一个链接被一个一个地爬取,直到处理完一条路由,然后再处理下一条路由。深度优先的策略设计比较简单。但是,门户网站网站提供的链接往往是最有价值的,PageRank也非常高。但是,随着深度的增加,网页和PageRank的价值会相应降低。这意味着重要的网页通常更接近*敏*感*词*,而被抓取过深的网页价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。