网页qq抓取什么原理(通用爬虫框架通用的爬虫爬虫架构（二）（一）)

优采云发布时间: 2022-03-25 18:04

　　(二）搜索引擎爬虫架构

　　浏览器是用户主动操作然后完成HTTP请求，而爬虫需要自动完成HTTP请求，而网络爬虫需要一套整体架构来完成工作。

　　虽然爬虫技术经过几十年的发展，在整体框架上已经比较成熟，但随着互联网的不断发展，也面临着一些具有挑战性的新问题。一般爬虫框架如下：

　　通用爬虫框架

　　常用爬虫框架流程：

　　1、首先从互联网页面中仔细挑选部分网页，将这些网页的链接地址作为*敏*感*词*URL；

　　2、将这些*敏*感*词*网址放入待抓取的网址队列中；

　　3、爬虫依次读取要爬取的URL，通过DNS解析URL，将链接地址转换为网站服务器对应的IP地址。

　　4、然后将网页的IP地址和相对路径名交给网页下载器，

　　5、网页下载器负责页面内容的下载。

　　6、对于下载到本地的网页，一方面存储在页库中，等待索引等后续处理；另一方面，将下载的网页的URL放入已爬取的URL队列中，该队列记录爬虫系统已经下载的网页的URL，避免网页的重复爬取。

　　7、对于刚刚下载的网页，提取其中收录的所有链接信息，并在抓取的URL队列中进行检查。如果发现链接没有被爬取，就把这个URL放到待爬取URL队bad！

　　8、在9、结束时，会在后续的爬取调度中下载该URL对应的网页，以此类推，形成循环，直到待爬取的URL队列为空。

　　(三）爬虫爬取策略

　　在爬虫系统中，待爬取的 URL 队列是一个重要的部分。待爬取的URL队列中的URL的排列顺序也是一个重要的问题，因为它涉及到先爬到哪个页面，再爬到哪个页面。确定这些 URL 排列顺序的方法称为爬取策略。

　　1、深度优先搜索策略（循序渐进）

　　即图的深度优先遍历算法。网络爬虫会从起始页开始，逐个跟踪每个链接，处理完这一行后，会移动到下一个起始页，继续跟踪链接。

　　我们用图表来说明：

　　我们假设互联网是一个有向图，图中的每个顶点代表一个网页。假设初始状态是图中所有顶点都没有被访问过，那么深度优先搜索可以从图中的某个顶点开始，访问这个顶点，然后从v的未访问的相邻点开始依次遍历深度优先的图形，直到到达图形。图中所有与 v 相连的路径的顶点都已被访问过；如果此时图中还有未访问过的顶点，则选择图中另一个未访问过的顶点作为起点，重复上述过程，直到到目前为止图中所有顶点都已被访问过。

　　以下图中的无向图 G1 为例，对图进行深度优先搜索：

　　G1

　　搜索过程：

　　假设search fetch从顶点页面v1开始，访问页面v1后，选择邻接页面v2。由于 v2 没有被访问过，所以从 v2 开始搜索。以此类推，然后从v4、v8、v5开始搜索。访问 v5 后，由于 v5 的所有邻居都已访问，因此搜索回到 v8。出于同样的原因，搜索继续返回到 v4、v2 直到 v1。此时，由于v1的另一个相邻点没有被访问，所以搜索从v1到v3，然后继续。因此，得到的顶点访问序列为：

　　2、广度优先搜索策略

　　广度优先遍历的基本思想是将新下载的网页中找到的链接直接插入待爬取URL队列的末尾。也就是说，网络爬虫会先爬取起始网页链接的所有网页，然后选择其中一个链接的网页，继续爬取该网页链接的所有网页。该算法的设计和实现比较简单。目前，为了覆盖尽可能多的网页，一般采用广度优先搜索方式。也有许多研究将广度优先搜索策略应用于聚焦爬虫。其基本思想是距初始 URL 一定链接距离内的网页具有较高的主题相关性概率。另一种方法是将广度优先搜索与网络过滤技术相结合，首先使用广度优先策略抓取网页，然后过滤掉不相关的页面。这些方法的缺点是随着爬取的网页数量的增加，会下载和过滤大量不相关的网页，算法的效率会变低。

　　以上图为例，抓取过程如下：

　　广度搜索过程：

　　首先访问页面v1和v1的相邻点v2和v3，然后依次访问v2的相邻点v4和v5以及v3的相邻点v6和v7，最后访问v4的相邻点v8。由于这些顶点的邻接都被访问过，并且图中的所有顶点都被访问过，图的遍历就由这些完成了。得到的顶点访问序列是：

　　v1→v2→v3→v4→v5→v6→v7→v8

　　与深度优先搜索类似，在遍历过程中也需要一个访问标志数组。并且，为了顺序访问路径长度为2、3、…的顶点，需要附加一个队列来存储路径长度为1、2、…的访问顶点。

　　（1）广度优先的原因：

　　重要的网页往往更靠近 torrent 网站；万维网并没有我们想象的那么深，但是却出奇的宽（中国万维网的直径只有17，也就是说任意两页之间点击17次就可以访问）。到达）;

　　宽度优先有利于多爬虫协同爬行；

　　（2）广度优先存在有不利后果：

　　容易导致爬虫陷入死循环，不该抓取的重复抓取；

　　没有机会去抢该抢的；

　　（3）解决以上两个缺点的方法是深度优先遍历策略和不重复爬取策略

　　(4）为了防止爬虫无限广度优先爬取，必须限制在一定的深度，达到这个深度后就停止爬取。这个深度就是万维网的直径。爬取的时候是停止在最大深度，那些太深的未爬取页面，总是期望从其他洪流站点更经济地到达。限制爬取深度会打破无限循环的条件，即使发生循环，它也会停止有限的次数。

　　(5）评估：宽度(breadth)优先级，考虑到深度遍历策略，可以有效保证爬取过程的闭合，即在爬取过程中(遍历路径)始终爬取下的网页相同的域名，而其他域下的页面很少出现。

　　3、反向链接计数策略

　　反向链接数是指从其他网页指向一个网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此，在很多情况下，搜索引擎的爬取系统会使用这个指标来评估网页的重要性，从而确定不同网页的爬取顺序。

　　在真实的网络环境中，由于广告链接和作弊链接的存在，反向链接的数量并不能完全等同于他人的重要性。因此，搜索引擎倾向于考虑一些可靠的反向链接计数。

　　4、部分PageRank策略，最佳优先搜索策略

　　Partial PageRank算法借鉴了PageRank算法的思想：根据一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，选择一个或多个URL用最佳评价来爬取，即对于下载的网页，与待爬取的URL队列中的URL一起，形成一组网页，计算每个页面的PageRank值。按该顺序抓取页面。

　　它只访问页面分析算法预测为“有用”的页面。一个问题是爬虫爬取路径上的许多相关网页可能会被忽略，因为最佳优先策略是局部最优搜索算法。因此，需要将最佳优先级与具体应用结合起来进行改进，从而跳出局部最优点。研究表明，这样的闭环调整可以将不相关页面的数量减少 30% 到 90%。

　　如果每次爬取一个页面都重新计算一次PageRank值，折中的解决方案是：每爬完K个页面，重新计算一次PageRank值。但是这种情况还是有一个问题：对于下载页面中分析的链接，也就是我们前面提到的那部分未知网页，暂时没有PageRank值。为了解决这个问题，会给这些页面一个临时的PageRank值：把这个网页的所有传入链接传入的PageRank值聚合起来，从而形成未知页面的PageRank值，从而参与排序。

　　由于PageRank是全局算法，即当所有网页都下载完毕后，计算结果是可靠的，但是爬虫在爬取过程中只能接触到部分网页，所以在爬取页面时并不可靠。PageRank 是计算出来的，所以称为不完全 PageRank 策略。

　　5、OPIC 政策政策

　　该算法实际上为页面分配了一个重要性分数。在算法开始之前，所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时，P的*敏*感*词*分配给从P分析的所有链接，P的*敏*感*词*被清空。根据*敏*感*词*数量对待爬取URL队列中的所有页面进行排序。

　　6、大网站优先策略

　　所有待爬取的URL队列中的网页都按照它们所属的网站进行分类。网站需要下载的页面较多，请先下载。这种策略也称为大站点优先策略。

　　(四）网页更新政策

　　互联网实时变化并且非常动态。网页更新策略主要决定何时更新之前已经下载的页面。常见的更新策略有以下三种：

　　1.历史参考政策

　　顾名思义，它根据页面过去的历史更新数据来预测未来页面何时会发生变化。通常，预测是通过泊松过程建模来进行的。

　　2.用户体验策略

　　尽管搜索引擎可以为某个查询返回大量结果，但用户通常只关注结果的前几页。因此，爬虫系统可以优先更新那些实际在查询结果前几页的页面，然后再更新后面的那些页面。这个更新策略也需要用到历史信息。UX 策略保留网页的多个历史版本，并根据每个过去内容更改对搜索质量的影响得出一个平均值，并以此值作为决定何时重新抓取的基础。

　　3.集群抽样策略

　　上面提到的两种更新策略都有一个前提：需要网页的历史信息。这种方式存在两个问题：第一，如果系统为每个系统保存多个版本的历史信息，无疑会增加很多系统负担；第二，如果新网页完全没有历史信息，就无法确定更新策略。

　　该策略认为网页具有许多属性，具有相似属性的网页可以认为具有相似的更新频率。计算某一类别网页的更新频率，只需对该类别的网页进行采样，并将其更新周期作为整个类别的更新周期。基本思路如下：

　　(五）暗网爬行

　　请参阅“这是搜索引擎”

　　1、查询组合题

　　2、填写文本框

　　(六）分布式爬虫

　　请参阅“这是搜索引擎”

　　1、主从分发爬虫

　　对于主从分布式爬虫来说，不同的服务器扮演不同的角色，其中一台负责为其他服务器提供URL分发服务，而其他机器执行实际的网页下载。

　　但它可能会导致瓶颈。

　　2、点对点分发爬虫

　　在点对点分布式爬虫系统中，服务器之间的分工没有区别，每台服务器承担相同的功能，每台服务器承担一部分的URL爬取工作。

　　(七）爬虫质量评估标准

　　1、【更全】爬取网页覆盖率，爬虫爬取的网页数量占互联网网页总数的比例。（即召回率越高越好）

　　2、 [更快] 爬取网页时的新速度，网页很可能在不断变化，有的更新，有的删除。保证最新率可以保证网页一有变化就反映在网页库中，过期无效数据越少，用户访问的新数据越多。

　　3、【更准确】爬取网页的重要性，重要性越高，网页质量越好，越能满足用户的搜索需求。（即搜索精度越好）

　　(八）网络爬虫的组件

　　一般的网络爬虫通常收录以下5个模块：

　　1、保存*敏*感*词* URL 的数据结构

　　2、保存要爬取的URL的数据结构

　　3、保存已抓取网址的数据结构

　　4、页面获取模块

　　5、一个模块，提取获取的页面内容的各个部分，例如HTML、JS等。

　　其他可选模块包括：

　　1、负责预连接处理模块

　　2、负责连接后处理模块

　　3、过滤器模块

　　4、负责多线程的模块

　　5、负责分布式模块

　　(九）URL存储常用数据结构

　　1、*敏*感*词*网址

　　爬虫从一系列*敏*感*词* URL 开始爬取，一般从数据库表或配置文件中读取这些*敏*感*词* URL。

　　一般而言，网站的所有者将网站提交到分类目录，如dmoz()，爬虫就可以从打开的目录dmoz开始爬取。

　　*敏*感*词* URL 一般有以下字段

　　Id url Source (网站 source) rank (PageRank 值)

　　2、要爬取的URL的数据结构

　　（1）相对较小的样本爬虫可能会使用内存中的队列，或者优先级队列进行存储。

　　（2）中等规模的爬虫程序可能会使用BerkelyDB等内存数据库进行存储，如果不能存储在内存中，也可以序列化到磁盘。

　　（3）真正的大型爬虫系统是存储通过服务器集群爬取的url。

　　3、爬取网址的数据结构

　　由于经常查询已访问的表以查看它是否已被处理。因此，如果Visited表是内存中的数据结构，可以使用Hash（HashSet/HashMap）来存储。

　　如果 URL 列存储在数据库中，则可以对其进行索引。

0

2022-03-25

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页qq抓取什么原理(通用爬虫框架通用的爬虫爬虫架构（二）（一）)

0 个评论

发起人