抓取网页新闻(网络爬虫的基本原理原理和基本原理策略策略设计系统)

优采云发布时间: 2022-01-14 05:00

　　网络爬虫定义

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，通常称为网页追逐者）是一种程序或脚本，它根据一定的规则自动从万维网上爬取信息。算法

　　可以理解的更形象：网络就是一张巨大的蜘蛛网，每条蜘蛛丝的交汇点就是一个资源（URI）。爬虫在这个庞大的网络上爬取必要的资源后，通过一定的机制和容器进行存储。. 互联网

　　网络爬虫的原理

　　网络爬虫的基本原理可以用一张经典图来概括：

　　多线程下载器功能：从互联网上抓取网页信息。其中，通过URL下载队列调度器，在一定时间或某种调度机制后进行下载，将下载的目标资源存储在多内存（DB）中。

　　网络爬虫的爬取策略爬取策略是网络爬虫系统中最重要的部分。爬取策略是爬虫系统按照一定的方法/方法对目标资源进行爬取。目前比较常见的爬取策略有：深度优先、广度优先、最佳优先。还有一些爬取策略：反向连接策略、Partial PageRank策略、OPIC策略、大站点优先策略等等。

　　深度优先深度优先搜索策略从起始页面开始，选择一个URL进入，分析该页面中的URL，选择一个然后进入。这样的连接是一个接一个的抓取，直接处理完一个路由后处理下一个路由。深度优先策略设计相对简单。但是门户网站网站提供的链接往往是最有价值的，而且PageRank也很高，但是每深入一层，页面价值和PageRank都会相应降低。这意味着重要的页面通常更靠近*敏*感*词*，而爬得太深的页面几乎没有价值。同时，该策略的抓取深度直接影响抓取命中率和抓取效率，而抓取深度是该策略的关键。与其他两种策略相比。这种策略很少使用。

　　广度优先广度优先搜索策略是指在爬取过程中，完成当前一级的搜索后，再进行下一级的搜索。该算法的设计和实现比较简单。目前，为了覆盖尽可能多的页面，通常使用广度优先搜索的方法。还有许多研究将广度优先搜索策略应用于重点爬虫。其基本思想是距离初始 URL 一定连接距离内的网页具有很高的关联概率。另一种方法是将广度优先搜索与网络过滤技术相结合，首先采用广度优先策略抓取网页，然后过滤掉不相关的网页。这些方法的缺点是随着爬取的网页数量的增加，

　　best-first best-first 搜索策略根据一定的网页分析算法预测候选 URL 与目标页面的相似度，或与主题的相关性，选择评价最好的一个或几个 URL 进行爬取。它只访问被网络分析算法预测为“有用”的网页。一个问题是爬虫爬取路径上的很多相关网页可能会被忽略，因为最佳优先级策略是局部最优搜索算法。因此，需要将最佳优先级与具体应用结合起来进行改进，以跳出局部最佳优势。具体的讨论将在第4节结合网页分析算法进行。

　　反向链接数策略反向链接数是指一个网页被其他网页指向的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此，在很多情况下，搜索引擎的爬取系统都会使用这个指标来评估网页的重要性，从而确定不同网页的爬取前后顺序。在真实的网络环境中，由于广告连接和欺骗连接的存在，反向连接的数量不能完全等待别人的重视。因此，搜索引擎通常会考虑一些可靠的反向链接。

　　Partial PageRank 策略 Partial PageRank 算法借鉴了 PageRank 算法的思想：对于下载的网页，连同待爬取的 URL 队列中的 URL，创建一个网页的集合，计算每个网页的 PageRank 值页。经过计算，待爬取的 URL 将队列中的 URL 按 PageRank 值的大小排序，并按照该顺序爬取页面。如果每次爬取一个页面都重新计算一次PageRank值，折中的解决方案是：每爬完K个页面，重新计算一次PageRank值。但是这种情况还是有一个问题：对于下载页面中分析的链接，也就是我们之前提到的那部分未知网页，暂时没有PageRank值。为了解决这个问题，

　　OPIC strategy strategy 该算法实际上对页面的重要性进行评分。在算法开始之前，所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时，P的cash被分配给从P分析的所有connection，P的cash被清空。将URL队列中的所有页面按照*敏*感*词*数量排序。

　　大站点优先策略所有待爬取的URL队列中的网页都按照它们所属的网站进行分类。网站需要下载的页面较多，请先下载。这种策略也称为大站点优先策略。

　　总结：在实际运营过程中，往往不是单独选择某一种策略，而是结合多种策略的优势，去糟粕，为业务实现相应的功能。

　　网络爬虫还有一个重要的部分就是进行网页分析，具体方法有：拓扑分析算法、网页分析算法等。这里的重点是如何实现爬取的动作，我们不需要在爬取范围广泛的网页时，关心获取所需的目标页面，因此我们在此不做详细分析。

　　参考：

　　下一篇会是爬取腾讯新闻RSS网页的原理。请注意。

0

2022-01-14

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(网络爬虫的基本原理原理和基本原理策略策略设计系统)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(网络爬虫的基本原理原理和基本原理策略策略设计系统)

0 个评论

发起人

相关问题