抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)(图))

优采云发布时间: 2022-01-28 22:11

　　网络爬虫定义

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常被称为网页追逐者）是根据一定规则自动爬取万维网上信息的程序或脚本。

　　可以理解的更形象：网络相当于一张巨大的蜘蛛网，每条蜘蛛丝的交集就是一个资源（URI）。.

　　网络爬虫的原理

　　网络爬虫的基本原理可以用一张经典图来概括：

　　多线程下载器功能：从互联网上抓取网页信息。其中，下载队列调度器用于通过一定的时间或调度机制进行下载，将下载的目标资源存储在一个多内存（DB）中。

　　网络爬虫抓取策略

　　爬取策略是网络爬虫系统中最重要的部分。爬取策略是爬虫系统按照一定的方法/方法对目标资源进行爬取。目前比较常见的爬取策略有：深度优先、广度优先、最佳优先。还有一些爬取策略：反向链接数策略、Partial PageRank 策略、OPIC 策略、大站点优先策略等。

　　深度优先

　　深度优先搜索策略从起始页面开始，选择一个URL进入，分析该页面中的URL，选择一个进入。这样的链接被逐个链接地获取，直到在处理下一个路由之前处理了一个路由。深度优先策略设计相对简单。虽然门户网站网站倾向于提供最有价值的链接并具有较高的 PageRank，但页面价值和 PageRank 会随着每个级别的深入而相应降低。这意味着重要的页面通常更靠近*敏*感*词*，而爬得太深的页面价值较低。同时，该策略的抓取深度直接影响抓取命中率和抓取效率，而抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

　　广度优先

　　广度优先搜索策略是指在爬取过程中，完成当前一级搜索后，再进行下一级搜索。该算法的设计和实现比较简单。目前，为了覆盖尽可能多的网页，一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网页过滤技术相结合，首先采用广度优先策略抓取网页，然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加，

　　最好的第一

　　最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度，或与主题的相关度，选择评价最好的一个或几个URL进行爬取。它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略，因为最佳优先策略是局部最优搜索算法。因此，需要将最佳优先级与具体应用结合起来进行改进，从而跳出局部最优点。在第 4 节中，将结合网页分析算法进行详细讨论。

　　反向链接计数策略

　　反向链接数是指从其他网页指向一个网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此，在很多情况下，搜索引擎的爬取系统会使用这个指标来评估网页的重要性，从而确定不同网页的爬取顺序。在真实的网络环境中，由于广告链接和作弊链接的存在，反向链接的数量并不能完全等同于他人的重要性。因此，搜索引擎倾向于考虑一些可靠的反向链接计数。

　　部分PageRank策略

　　Partial PageRank算法借鉴了PageRank算法的思想：对于下载的网页，与待爬取的URL队列中的URL一起形成一组网页，计算每个页面的PageRank值. URL 按 PageRank 值排序，并按该顺序抓取页面。如果每次爬取一个页面都重新计算一次PageRank值，一个折中的方案是每次爬取K个页面都重新计算一次PageRank值。但是这种情况还是有一个问题：对于下载页面中分析的链接，也就是我们前面提到的未知网页部分，暂时没有PageRank值。为了解决这个问题，给这些页面一个临时的PageRank值：把这个网页所有传入链接传入的PageRank值聚合起来，

　　OPIC 战略战略

　　该算法实际上为页面分配了一个重要性分数。在算法开始之前，所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时，P的*敏*感*词*分配给从P分析的所有链接，P的*敏*感*词*被清空。根据*敏*感*词*数量对待爬取URL队列中的所有页面进行排序。

　　大网站优先策略

　　所有待爬取的URL队列中的网页都按照它们所属的网站进行分类。网站需要下载的页面较多，请先下载。这种策略也称为大站点优先策略。

　　总结：在实际运营过程中，往往不是单独选择某一种策略，而是结合多种策略的优势，去糟粕，为业务实现相应的功能。

　　网络爬虫还有一个重要的部分就是进行网页分析，具体方法有：拓扑分析算法、网页分析算法等。这里的重点是如何实现爬取动作，我们不需要关心在大范围的网页爬取中获取想要的目标网页，这里不做详细分析。

　　参考：

　　百度百科

　　博客花园博客

　　... ...下一篇将执行爬取腾讯新闻RSS网页的原理。请注意。

0

2022-01-28

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(网络爬虫的基本原理策略抓取策略(一)(图))

0 个评论

发起人