jquery抓取网页内容(搜索引擎面对的是互联网万亿网页,如何高效抓取这么多网页到本地镜像?)

优采云 发布时间: 2022-01-27 19:00

  jquery抓取网页内容(搜索引擎面对的是互联网万亿网页,如何高效抓取这么多网页到本地镜像?)

  搜索引擎正面临着互联网上数以万亿计的网页。这么多网页如何高效爬取到本地镜像?这是网络爬虫的工作。我们也称它为网络蜘蛛,作为站长,我们每天都与它密切接触。

  一、爬虫框架

  

  上图是一个简单的网络爬虫框架图。从*敏*感*词*URL开始,如图,经过一步一步的工作,最终将网页存入库中。当然,勤劳的蜘蛛可能还需要做更多的工作,比如网页的去重和网页的反作弊。

  或许,我们可以将网页视为蜘蛛的晚餐,其中包括:

  下载的网页。被蜘蛛爬过的网页内容被放到了肚子里。

  过期网页。蜘蛛每次都要爬很多网页,有的已经在肚子里坏掉了。

  要下载的页面。当它看到食物时,蜘蛛就会去抓它。

  知名网站。它还没有被下载和发现,但是蜘蛛可以感知它们并且迟早会抓住它。

  不可知的网页。互联网太大了,很多页面蜘蛛都找不到,而且可能永远也找不到。这部分占比很高。

  通过以上划分,我们可以清楚地了解搜索引擎蜘蛛的工作以及它们面临的挑战。大多数蜘蛛都是按照这个框架爬行的。但这并不完全确定。一切总是特别的。根据不同的功能,蜘蛛系统有一些差异。

  二、爬虫种类

  1.批量式蜘蛛。

  这种蜘蛛有明确的抓取范围和目标,当蜘蛛完成目标和任务时停止抓取。具体目标是什么?它可能是爬取的页面数量、页面大小、爬取时间等。

  2.增量蜘蛛

  这种蜘蛛不同于批处理型蜘蛛,它们会不断地爬取,并且会定期对爬取的网页进行爬取和更新。由于 Internet 上的网页在不断更新,增量爬虫需要能够反映这种更新。

  3.垂直蜘蛛

  此类蜘蛛仅关注特定主题或特定行业页面。以health网站为例,这种专门的爬虫只会爬取健康相关的话题,其他话题的页面不会被爬取。测试这个蜘蛛的难点在于如何更准确地识别内容所属的行业。目前很多垂直行业网站都需要这种蜘蛛去抢。

  三、抢夺策略

  爬虫通过*敏*感*词*URL进行爬取和扩展,列出大量待爬取的URL。但是要爬取的URL数量巨大,爬虫是如何确定爬取顺序的呢?蜘蛛爬取的策略有很多,但最终目的是一个:首先爬取重要的网页。评价页面是否重要,蜘蛛会根据页面内容的程度原创、链接权重分析等多种方法进行计算。比较有代表性的爬取策略如下:

  1. 广度优先策略

  

  宽度优先是指蜘蛛爬取网页后,会继续按顺序爬取网页中收录的其他页面。这个想法看似简单,但实际上非常实用。因为大部分网页都是有优先级的,所以在页面上优先推荐重要的页面。

  2. PageRank 策略

  PageRank是一种非常有名的链接分析方法,主要用来衡量网页的权威性。例如,Google 的 PR 就是典型的 PageRank 算法。通过PageRank算法我们可以找出哪些页面更重要,然后蜘蛛会优先抓取这些重要的页面。

  3.大网站优先策略

  这个很容易理解,大网站通常内容页比较多,质量也会比较高。蜘蛛会首先分析网站分类和属性。如果这个网站已经是收录很多,或者在搜索引擎系统中的权重很高,则优先考虑收录。

  4.网页更新

  互联网上的大部分页面都会更新,所以蜘蛛存储的页面需要及时更新以保持一致性。打个比方:一个页面之前排名很好,如果页面被删除了但仍然排名,那么体验很差。因此,搜索引擎需要及时了解这些并更新页面,为用户提供最新的页面。常用的网页更新策略有三种:历史参考策略和用户体验策略。整群抽样策略。

  1. 历史参考策略

  这是基于假设的更新策略。例如,如果你的网页以前经常更新,那么搜索引擎也认为你的网页以后会经常更新,蜘蛛也会根据这个规则定期网站对网页进行爬取。这也是为什么点水一直强调网站内容需要定期更新的原因。

  2. 用户体验策略

  一般来说,用户只查看搜索结果前三页的内容,很少有人阅读后面的页面。用户体验策略是搜索引擎根据用户的这一特征进行更新。例如,一个网页可能发布得较早,一段时间内没有更新,但用户仍然觉得它有用并点击浏览,那么搜索引擎可能不会先更新这些过时的网页。这就是为什么搜索结果中的最新页面不一定排名靠前的原因。排名更多地取决于页面的质量,而不是更新的时间。

  3.整群抽样策略

  以上两种更新策略主要参考网页的历史信息。但是,存储大量历史信息对于搜索引擎来说是一种负担,如果收录是一个新的网页,没有历史信息可以参考,怎么办?聚类抽样策略是指根据网页显示的某些属性对许多相似的网页进行分类,分类后的页面按照相同的规则进行更新。

  从了解搜索引擎蜘蛛工作原理的过程中,我们会知道:网站内容的相关性、网站与网页内容的更新规律、网页链接的分布和权重网站 等因素会影响蜘蛛的爬取效率。知己知彼,让蜘蛛来得更猛烈!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线