抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)_光明网)

优采云 发布时间: 2022-03-09 14:32

  抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)_光明网)

  网络爬虫定义

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,通常称为网络追逐者)是根据某些规则自动从万维网上爬取信息的程序或脚本。

  可以理解的更形象:网络相当于一张巨大的蜘蛛网,每条蜘蛛丝的交集就是一个资源(URI)。.

  网络爬虫的原理

  网络爬虫的基本原理可以用一张经典图来概括:

  

  多线程下载器功能:从互联网上抓取网页信息。其中,队列调度器通过URL下载,通过一定的时间或调度机制进行下载,将下载的目标资源存储在一个多内存(DB)中。

  网络爬虫的爬取策略 爬取策略是网络爬虫系统中最重要的部分。爬取策略是爬虫系统按照一定的方法/方法对目标资源进行爬取。目前比较常见的爬取策略有:深度优先、广度优先、最佳优先。还有一些爬取策略:反向链接数策略、Partial PageRank 策略、OPIC 策略、大站点优先策略等。

  深度优先深度优先搜索策略从起始页面开始,选择一个URL进入,分析该页面中的URL,选择一个然后进入。这样的链接被逐个链接地获取,直到在处理下一个路由之前处理了一个路由。深度优先策略设计相对简单。虽然门户网站 网站 倾向于提供最有价值的链接并具有较高的 PageRank,但页面价值和 PageRank 会随着每个级别的深入而相应降低。这意味着重要的页面通常更靠近*敏*感*词*,而爬得太深的页面价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,而抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

  广度优先 广度优先搜索策略是指在爬取过程中,完成当前一级的搜索后,再进行下一级的搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网页过滤技术相结合,首先使用广度优先策略抓取网页,然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加,

  最佳优先搜索策略根据一定的网页分析算法预测候选URL与目标页面的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略,因为最佳优先策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,从而跳出局部最优点。在第 4 节中,将结合网页分析算法进行详细讨论。

  反向链接数量策略 反向链接数量是指指向其他网页指向的网页的链接数量。反向链接的数量表示网页内容被他人推荐的程度。因此,在很多情况下,搜索引擎的爬取系统会使用这个指标来评估网页的重要性,从而确定不同网页的爬取顺序。在真实的网络环境中,由于广告链接和作弊链接的存在,反向链接的数量并不能完全等同于他人的重要性。因此,搜索引擎倾向于考虑一些可靠的反向链接计数。

  Partial PageRank 策略 Partial PageRank 算法借鉴了 PageRank 算法的思想:对于下载的网页,连同待爬取的 URL 队列中的 URL,形成一组网页,每个网页的 PageRank 值页计算。经过计算,待爬取的 URL 将队列中的 URL 按 PageRank 值的大小排序,并按照该顺序爬取页面。如果每次爬取一个页面都重新计算一次PageRank值,折中的解决方案是:每爬完K个页面,重新计算一次PageRank值。但是这种情况还是有一个问题:对于下载页面中分析的链接,也就是我们前面提到的那部分未知网页,暂时没有PageRank值。为了解决这个问题,

  OPIC strategy strategy 该算法实际上对页面的重要性进行评分。在算法开始之前,所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时,P的*敏*感*词*分配给从P分析的所有链接,P的*敏*感*词*被清空。根据*敏*感*词*数量对待爬取URL队列中的所有页面进行排序。

  大站点优先策略 所有待爬取的URL队列中的网页,按照它们所属的网站分类。网站需要下载的页面较多,请先下载。这种策略也称为大站点优先策略。

  总结:在实际运营过程中,往往不是单独选择某一种策略,而是结合多种策略的优势,去糟粕,为业务实现相应的功能。

  网络爬虫还有一个重要的部分就是进行网页分析,具体方法有:拓扑分析算法、网页分析算法等。这里的重点是如何实现爬取的动作,无需关心关于在广泛的网页爬取中获取想要的目标网页,这里不做详细分析。

  参考:

  下一篇会是爬取腾讯新闻RSS网页的原理。请注意。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线