抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)(图))
优采云 发布时间: 2022-01-28 22:11抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)(图))
网络爬虫定义
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常被称为网页追逐者)是根据一定规则自动爬取万维网上信息的程序或脚本。
可以理解的更形象:网络相当于一张巨大的蜘蛛网,每条蜘蛛丝的交集就是一个资源(URI)。.
网络爬虫的原理
网络爬虫的基本原理可以用一张经典图来概括:
多线程下载器功能:从互联网上抓取网页信息。其中,下载队列调度器用于通过一定的时间或调度机制进行下载,将下载的目标资源存储在一个多内存(DB)中。
网络爬虫抓取策略
爬取策略是网络爬虫系统中最重要的部分。爬取策略是爬虫系统按照一定的方法/方法对目标资源进行爬取。目前比较常见的爬取策略有:深度优先、广度优先、最佳优先。还有一些爬取策略:反向链接数策略、Partial PageRank 策略、OPIC 策略、大站点优先策略等。
深度优先
深度优先搜索策略从起始页面开始,选择一个URL进入,分析该页面中的URL,选择一个进入。这样的链接被逐个链接地获取,直到在处理下一个路由之前处理了一个路由。深度优先策略设计相对简单。虽然门户网站 网站 倾向于提供最有价值的链接并具有较高的 PageRank,但页面价值和 PageRank 会随着每个级别的深入而相应降低。这意味着重要的页面通常更靠近*敏*感*词*,而爬得太深的页面价值较低。同时,该策略的抓取深度直接影响抓取命中率和抓取效率,而抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。
广度优先
广度优先搜索策略是指在爬取过程中,完成当前一级搜索后,再进行下一级搜索。该算法的设计和实现比较简单。目前,为了覆盖尽可能多的网页,一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网页过滤技术相结合,首先采用广度优先策略抓取网页,然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加,
最好的第一
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略,因为最佳优先策略是局部最优搜索算法。因此,需要将最佳优先级与具体应用结合起来进行改进,从而跳出局部最优点。在第 4 节中,将结合网页分析算法进行详细讨论。
反向链接计数策略
反向链接数是指从其他网页指向一个网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此,在很多情况下,搜索引擎的爬取系统会使用这个指标来评估网页的重要性,从而确定不同网页的爬取顺序。在真实的网络环境中,由于广告链接和作弊链接的存在,反向链接的数量并不能完全等同于他人的重要性。因此,搜索引擎倾向于考虑一些可靠的反向链接计数。
部分PageRank策略
Partial PageRank算法借鉴了PageRank算法的思想:对于下载的网页,与待爬取的URL队列中的URL一起形成一组网页,计算每个页面的PageRank值. URL 按 PageRank 值排序,并按该顺序抓取页面。如果每次爬取一个页面都重新计算一次PageRank值,一个折中的方案是每次爬取K个页面都重新计算一次PageRank值。但是这种情况还是有一个问题:对于下载页面中分析的链接,也就是我们前面提到的未知网页部分,暂时没有PageRank值。为了解决这个问题,给这些页面一个临时的PageRank值:把这个网页所有传入链接传入的PageRank值聚合起来,
OPIC 战略 战略
该算法实际上为页面分配了一个重要性分数。在算法开始之前,所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时,P的*敏*感*词*分配给从P分析的所有链接,P的*敏*感*词*被清空。根据*敏*感*词*数量对待爬取URL队列中的所有页面进行排序。
大网站优先策略
所有待爬取的URL队列中的网页都按照它们所属的网站进行分类。网站需要下载的页面较多,请先下载。这种策略也称为大站点优先策略。
总结:在实际运营过程中,往往不是单独选择某一种策略,而是结合多种策略的优势,去糟粕,为业务实现相应的功能。
网络爬虫还有一个重要的部分就是进行网页分析,具体方法有:拓扑分析算法、网页分析算法等。这里的重点是如何实现爬取动作,我们不需要关心在大范围的网页爬取中获取想要的目标网页,这里不做详细分析。
参考:
百度百科
博客花园博客
... ...下一篇将执行爬取腾讯新闻RSS网页的原理。请注意。