网页视频抓取器手机版(网络爬虫的发展、搜索引擎的特性实用的爬虫系统应该具备哪些)
优采云 发布时间: 2021-12-29 08:02网页视频抓取器手机版(网络爬虫的发展、搜索引擎的特性实用的爬虫系统应该具备哪些)
上面,作者介绍了互联网的发展和搜索引擎的发展,从目录搜索引擎到搜索引擎。这一章,我们继续聊聊搜索产品背后的技术。
因为本人不是技术岗位,本文的读者,也默认像我这样不是技术岗位,但是有一定技术意识的同学,我会尽量把文章写的简单易懂理解。
索引引擎系统由多个子模块组成。我们先来了解第一个模块,网络爬虫。
一、什么是网络爬虫?
使用程序自动将所有网页下载到本地,形成互联网的本地镜像备份。
二、通用爬虫框架
在了解通用爬虫框架之前,让我们回顾一下上一章提到的超链接。
浏览网页时,点击一个超链接,浏览器可以跳转到相应的网页。有了超链接,我们可以从任何一个网页开始,使用图遍历算法,自动访问每个网页并保存。
(图的遍历算法这里就不解释了,有兴趣的同学可以自行查询)
上面的说法比较抽象,让我们通过一个例子来理解。
网络爬虫是如何下载整个互联网的?
参考上图,从一个门户网站的首页开始。我们任意选择一个门户网站的首页,下载其内容,分析内容,就可以得到该门户网站首页的所有超链接。然后,我们分别输入不同的超链接,例如输入超链接一,重复网站的内容下载。
当然,也需要记录下下载了哪个网页,避免重复。
三、网络爬虫的特点
一个实用的爬虫系统应该具备以下特点:
3.1 高性能
互联网上的网页如此之多,因此爬虫的性能非常重要。性能定义为爬虫下载网页的速度,具体评价指标是爬虫每秒可以下载的网页数量。单位时间内可以下载的网页越多,性能就越高。
3.2 可扩展性
由于互联网上的网页数量庞大,即使单个爬虫性能很高,完成爬虫任务也需要极长的时间。为了尽可能缩短爬虫周期,爬虫系统应该具有良好的可扩展性,这可以通过增加爬虫数量来实现。
3.3 鲁棒性
爬虫想要访问各种类型的Web服务器,可能会遇到很多异常情况,比如网页HTML编码不规范,被爬取的服务器突然崩溃等。爬虫对于正确处理各种异常情况非常重要,否则可能会时不时停止工作。
3.4 友好
爬虫的友善有两层意思:
1. 保护网站的部分隐私
2. 减少爬取网站的网络负载
四、 履带质量评价标准
从用户体验的角度,我们需要衡量爬虫的质量。有以下三个指标:
1. 抓取页面覆盖率
2. 抓取网页时的新鲜度
3. 抓取网页的重要性
4.1 个报道
覆盖率=爬虫抓取的网页数量/互联网上所有网页的数量之比
高覆盖率就相当于搜索引擎的召回率越高。
上图中,网上有5个网页,爬虫系统抓取了其中的3个,所以召回率=3/5=60%
4.2 及时性
对于许多本地网页,许多网页可能已被更改或删除。爬虫爬完一个完整的回合需要很长时间,所以有些被爬取的网页肯定是过时的数据,也就是不能一改网页就反映到网页库中,所以越少过期的数据在网页库,网页的时效性越好,这对用户体验非常重要。
4.3 重要性
互联网上有很多网页,但每个网页的重要性却大不相同。例如,来自雅虎新闻的网页和作弊网页的重要性就大不相同。如果搜索引擎爬虫检索到的网页大部分是比较重要的网页,那么他们在抓取网页的重要性方面已经做得很好了。
本章介绍了搜索引擎、网络爬虫的第一步,从网络爬虫系统、网络爬虫的性能、网络爬虫评价指标三大模块,对网络爬虫进行讲解。
在下一章中,我们将讨论搜索引擎索引。
参考智能时代的数学之美。以上就是对搜索引擎核心技术的详细讲解。
本文由@一个Brociflower 发布 原创给大家是产品经理。未经许可禁止转载
标题图片来自Unsplash,基于CC0协议