抓取网页音频(网络爬虫框架图框架)

优采云 发布时间: 2022-03-01 18:03

  抓取网页音频(网络爬虫框架图框架)

  一、爬虫框架

  上图是一个简单的网络爬虫框架。从*敏*感*词*URL开始,如图,经过一步一步的工作,最终将网页存入库中。当然,勤劳的蜘蛛可能还需要做更多的工作,比如网页去重、网页反作弊等。

  或许,我们可以把网页当成蜘蛛的晚餐,其中包括:

  已下载的网页。被蜘蛛爬过的网页内容就被放到肚子里了。

  过期页面。蜘蛛每次爬的网页很多,有的已经在肚子里坏掉了。

  要下载的网页。当它看到食物时,蜘蛛就会去抓它。

  已知页面。它还没有被下载和发现,但蜘蛛可以感知它们并迟早会抓住它。

  不可知的网页。互联网太大了,很多页面蜘蛛都找不到,而且可能永远也找不到。这部分占比很高。

  通过以上划分,我们可以清楚地了解搜索引擎蜘蛛的工作及其面临的挑战。大多数蜘蛛都是按照这个框架爬行的。但这并不完全确定。一切总是特别的。根据不同的功能,蜘蛛系统有一定的区别。

  二、爬虫的类型

  1、批处理式spider。

  这种蜘蛛有明确的爬行范围和目标,当蜘蛛完成目标和任务时停止爬行。具体目标是什么?可能是爬取的页数、页面大小、爬取时间等。

  2、增量爬虫

  这种类型的爬虫与批处理类型的爬虫不同,它们会不断地爬取,并且会定期爬取和更新它们爬取的网页。由于 Internet 上的网页在不断更新,增量爬虫需要能够反映这种更新。

  3、垂直蜘蛛

  此蜘蛛仅关注特定主题或特定行业页面。以health网站为例,这种专门的爬虫只会爬取健康相关的话题,其他话题的页面不会被爬取。测试这个蜘蛛的难点在于如何更准确地识别内容所属的行业。目前很多垂直行业网站都需要这种蜘蛛去抢。

  三、爬取策略

  爬虫通过*敏*感*词*URL进行爬取和扩展,列出大量待爬取的URL。但是要爬取的URL数量巨大,爬虫是如何确定爬取顺序的呢?蜘蛛爬取的策略有很多,但最终目的是一个:首先爬取重要的网页。评价页面是否重要,蜘蛛会根据页面内容的程度原创、链接权重分析等多种方法进行计算。比较有代表性的爬取策略如下:

  1、广度优先策略

  广度优先是指蜘蛛抓取一个网页后,会继续按顺序抓取该网页中收录的其他页面。这个想法看似简单,但实际上非常实用。因为大部分网页都有优先级,所以重要的页面会优先推荐在页面上。

  2、PageRank策略

  PageRank是一种非常有名的链接分析方法,主要用来衡量网页的权威性。例如,Google 的 PR 就是典型的 PageRank 算法。通过PageRank算法我们可以找出哪些页面更重要,然后蜘蛛会优先抓取这些重要的页面。

  3、大网站优先策略

  这个好理解,大网站通常内容页多,质量会更高。蜘蛛会首先分析网站分类和属性。如果这个网站已经是收录很多了,或者在搜索引擎系统中有很高的权重,则优先考虑收录。

  四、网页更新

  互联网上的大部分页面都会保持更新,所以蜘蛛存储的页面需要及时更新以保持一致性。打个比方:一个网页以前排名很好,但如果页面被删除了,但仍然排名,体验不好。因此,搜索引擎需要及时了解这些并更新页面,为用户提供最新的页面。常用的网页更新策略有三种:历史参考策略和用户体验策略。整群抽样策略。

  1、历史参考策略

  这是基于假设的更新策略。比如,如果你的网页以前经常更新,那么搜索引擎也认为你的网页以后会经常更新,蜘蛛也会根据这个规则定期网站抓取网页。这也是为什么点水一直强调网站内容需要定期更新的原因。

  2、用户体验策略

  一般情况下,用户只查看搜索结果前三页的内容,很少有人看到后面的页面。用户体验策略是搜索引擎根据用户的这一特征进行更新。例如,一个网页可能发布得较早,一段时间内没有更新,但用户仍然觉得它有用并点击浏览,那么搜索引擎可能不会先更新这些过时的网页。这就是为什么搜索结果中的最新页面不一定排名靠前的原因。排名更多地取决于页面的质量,而不是更新的时间。

  3、整群抽样策略

  以上两种更新策略主要参考网页的历史信息。但是存储大量的历史信息对于搜索引擎来说是一种负担,如果收录是一个新的网页,没有历史信息可以参考,怎么办?聚类抽样策略是指根据网页显示的一些属性对许多相似的网页进行分类,分类后的网页按照相同的规则进行更新。

  从了解搜索引擎蜘蛛工作原理的过程中,我们会知道:网站内容的相关性,网站与网页内容的更新规则,网页链接的分布情况而网站权重等因素会影响蜘蛛的爬行效率。认识已知的敌人,让蜘蛛来得更猛烈!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线