抓取网页新闻(神龙IP一起常见的抓取策略及算法策略)
优采云 发布时间: 2022-01-01 00:14抓取网页新闻(神龙IP一起常见的抓取策略及算法策略)
网络爬虫,又称网络蜘蛛,是一种根据一定的逻辑和算法从互联网上爬取和下载网页的计算机程序。它是搜索引擎的重要组成部分。一般爬虫从*敏*感*词*URL的一部分开始,按照一定的策略开始爬取。将新抓取到的URL放入抓取队列,然后进行新一轮抓取,直到抓取完成。
在爬虫系统中,要爬取的URL队列是一个非常重要的部分。 URL队列中要爬取的URL的顺序也是一个很重要的问题,因为它涉及到先爬哪个页面,后爬哪个页面。确定这些 URL 顺序的方法称为抓取策略。网络爬虫的爬取策略有很多种,但无论采用哪种方式,基本目标都是一样的:优先选择重要的网页进行爬取。一起来看看神龙IP常见的爬取策略~
爬虫常用的爬取策略
一、广度优先遍历策略(Breath First)
将新下载的网页中收录的链接直接追加到要爬取的URL队列的末尾是广度优先遍历的核心。也就是说,该方法并没有明确提出和使用网页重要性衡量标准,而是机械地从新下载的网页中提取链接,附加到待抓取的URL队列中,排列URL的下载顺序。
二、OCIP 策略(Online Page Importance Computation,在线页面重要性计算)
它可以看作是一种改进的 PageRank 算法。在算法开始之前,每个互联网页面都被给予相同的“*敏*感*词*”。每当某个页面 P 被下载时,P 就会将自己拥有的“*敏*感*词*”平均分配给该页面所收录的链接页面,并将自己分配的“*敏*感*词*”清空。对于URL队列中待抓取的网页,按照手头*敏*感*词*的多少进行排序,*敏*感*词*最多的网页先下载。
OCIP 在其大框架上与 PageRank 基本相同。不同的是:PageRank每次都需要迭代计算,而OCIP策略不需要迭代过程,所以计算速度比PageRank快很多,适合实时计算。同时,在计算PageRank的时候,对于没有链接关系的网页有一个远程跳转的过程,而OCIP没有这个计算因素。实验结果表明OCIP是一种较好的重要性度量策略,效果略好于广度优先遍历策略。
三、大网站优先(大网站优先)
大网站的优先级策略很简单:用网站作为衡量网页重要性的单位。对于URL队列中待抓取的网页,根据自己的网站进行分类,如果网站中等待下载的页面最多,则优先下载这些链接。本质思想倾向于优先下载大的网站,因为大的网站往往收录更多的页面。鉴于大型网站往往是知名公司的内容,而且他们的网页质量普遍较高,这个想法很简单,但是有一定的依据。