爬虫抓取网页数据(一个通用的网络爬虫的基本结构及工作流程(组图))
优采云 发布时间: 2021-09-17 09:22爬虫抓取网页数据(一个通用的网络爬虫的基本结构及工作流程(组图))
引用别人的答案,希望对你有用
网络爬虫是搜索引擎捕获系统的重要组成部分。爬虫的主要目的是将Internet上的网页下载到本地,以形成网络内容的镜像或备份。以下是爬虫和爬虫系统的简要概述
一、web爬虫的基本结构和工作流程
网络爬虫的总体框架如图所示:
网络爬虫的基本工作流程如下:
1.首先选择一些精心挑选的*敏*感*词*URL
2.将这些URL放入要获取的URL队列
3.从要获取的URL队列中获取要获取的URL,解析DNS,获取主机IP,下载URL对应的网页并存储在下载的网页库中。此外,将这些URL放入已爬网的URL队列
4.分析已爬网URL队列中的URL,分析其他URL,将URL放入待爬网的URL队列中,进入下一个循环
二、从爬虫的角度划分互联网
相应地,互联网的所有页面可分为五个部分:
1.下载的未过期页面
2.下载和过期网页:捕获的网页实际上是互联网内容的镜像和备份。互联网正在动态变化。互联网上的一些内容发生了变化。此时,捕获的网页已过期
3.待下载网页:即URL队列中待抓取的网页
4.known web page:尚未捕获且不在要捕获的URL队列中,但可以通过分析捕获的页面或与要捕获的URL对应的页面来获得的URL被视为已知网页
5.还有一些网页不能被爬虫直接抓取和下载。它被称为不可知网页
三、grab策略
在爬虫系统中,要获取的URL队列是一个非常重要的部分。URL队列中要获取的URL的排列顺序也是一个非常重要的问题,因为它涉及先获取页面,然后获取哪个页面。确定这些URL顺序的方法称为爬网策略。以下重点介绍几种常见的捕获策略:
1.深度优先遍历策略
深度优先遍历策略意味着网络爬虫将从起始页开始,逐个跟踪链接。处理完这一行后,它将转到下一个起始页并继续跟踪链接。以下图为例:
遍历路径:a-f-g e-h-i B C D
2.宽度优先遍历策略
宽度优先遍历策略的基本思想是将新下载的网页中的链接直接插入要爬网的URL队列的末尾。也就是说,网络爬虫将首先抓取起始页面中的所有链接页面,然后选择其中一个链接页面以继续抓取此页面中的所有链接页面。以上图为例:
遍历路径:a-b-c-d-e-f g h I
3.反向链路计数策略
反向链接数是指其他网页指向某个网页的链接数。反向链接的数量表示其他人推荐网页内容的程度。因此,大多数情况下,搜索引擎的爬行系统都会利用这个指标来评价网页的重要性,从而确定不同网页的爬行顺序
在现实的网络环境中,由于广告链接和作弊链接的存在,反向链接的数量不能完全等着他或我。因此,搜索引擎经常考虑可靠的反向链接数量
4.PartialPageRank策略
部分PageRank算法借鉴了PageRank算法的思想:对于下载的网页,与要获取的URL队列中的URL一起,形成一个网页集合,计算每个页面的PageRank值,计算后根据PageRank值的大小排列要获取的URL队列中的URL,然后按这个顺序抓取页面
如果一次抓取一页,请重新计算PageRank值。折衷方案是每k页重新计算PageRank值。但是,在这种情况下会有一个问题:对于下载页面中分析的链接,即前面提到的未知网页,暂时没有PageRank值。为了解决这个问题,会给这些页面提供一个临时的PageRank值:汇总该页面链中传递的所有PageRank值,从而形成未知页面的PageRank值,从而参与排序。以下是一个例子:
5.OPIC战略战略
事实上,该算法还对页面的重要性进行评分。在算法开始之前,为所有页面提供相同的初始*敏*感*词*(cash)。下载页面P后,将P的*敏*感*词*分配给从P分析的所有链接,并清空P的*敏*感*词*。URL队列中要提取的所有页面都按*敏*感*词*金额排序
6.大站优先战略
要获取的URL队列中的所有网页都根据它们所属的网站进行分类。对于需要下载大量页面的网站而言,应优先考虑下载。这种策略也称为大站优先策略