网页视频抓取器手机版(网络爬虫的发展、搜索引擎的特性实用的爬虫系统应该具备哪些)

优采云发布时间: 2021-12-29 08:02

　　上面，作者介绍了互联网的发展和搜索引擎的发展，从目录搜索引擎到搜索引擎。这一章，我们继续聊聊搜索产品背后的技术。

　　因为本人不是技术岗位，本文的读者，也默认像我这样不是技术岗位，但是有一定技术意识的同学，我会尽量把文章写的简单易懂理解。

　　索引引擎系统由多个子模块组成。我们先来了解第一个模块，网络爬虫。

　　一、什么是网络爬虫？

　　使用程序自动将所有网页下载到本地，形成互联网的本地镜像备份。

　　二、通用爬虫框架

　　在了解通用爬虫框架之前，让我们回顾一下上一章提到的超链接。

　　浏览网页时，点击一个超链接，浏览器可以跳转到相应的网页。有了超链接，我们可以从任何一个网页开始，使用图遍历算法，自动访问每个网页并保存。

　　（图的遍历算法这里就不解释了，有兴趣的同学可以自行查询）

　　上面的说法比较抽象，让我们通过一个例子来理解。

　　网络爬虫是如何下载整个互联网的？

　　参考上图，从一个门户网站的首页开始。我们任意选择一个门户网站的首页，下载其内容，分析内容，就可以得到该门户网站首页的所有超链接。然后，我们分别输入不同的超链接，例如输入超链接一，重复网站的内容下载。

　　当然，也需要记录下下载了哪个网页，避免重复。

　　三、网络爬虫的特点

　　一个实用的爬虫系统应该具备以下特点：

　　3.1 高性能

　　互联网上的网页如此之多，因此爬虫的性能非常重要。性能定义为爬虫下载网页的速度，具体评价指标是爬虫每秒可以下载的网页数量。单位时间内可以下载的网页越多，性能就越高。

　　3.2 可扩展性

　　由于互联网上的网页数量庞大，即使单个爬虫性能很高，完成爬虫任务也需要极长的时间。为了尽可能缩短爬虫周期，爬虫系统应该具有良好的可扩展性，这可以通过增加爬虫数量来实现。

　　3.3 鲁棒性

　　爬虫想要访问各种类型的Web服务器，可能会遇到很多异常情况，比如网页HTML编码不规范，被爬取的服务器突然崩溃等。爬虫对于正确处理各种异常情况非常重要，否则可能会时不时停止工作。

　　3.4 友好

　　爬虫的友善有两层意思：

　　1. 保护网站的部分隐私

　　2. 减少爬取网站的网络负载

　　四、履带质量评价标准

　　从用户体验的角度，我们需要衡量爬虫的质量。有以下三个指标：

　　1. 抓取页面覆盖率

　　2. 抓取网页时的新鲜度

　　3. 抓取网页的重要性

　　4.1 个报道

　　覆盖率=爬虫抓取的网页数量/互联网上所有网页的数量之比

　　高覆盖率就相当于搜索引擎的召回率越高。

　　上图中，网上有5个网页，爬虫系统抓取了其中的3个，所以召回率=3/5=60%

　　4.2 及时性

　　对于许多本地网页，许多网页可能已被更改或删除。爬虫爬完一个完整的回合需要很长时间，所以有些被爬取的网页肯定是过时的数据，也就是不能一改网页就反映到网页库中，所以越少过期的数据在网页库，网页的时效性越好，这对用户体验非常重要。

　　4.3 重要性

　　互联网上有很多网页，但每个网页的重要性却大不相同。例如，来自雅虎新闻的网页和作弊网页的重要性就大不相同。如果搜索引擎爬虫检索到的网页大部分是比较重要的网页，那么他们在抓取网页的重要性方面已经做得很好了。

　　本章介绍了搜索引擎、网络爬虫的第一步，从网络爬虫系统、网络爬虫的性能、网络爬虫评价指标三大模块，对网络爬虫进行讲解。

　　在下一章中，我们将讨论搜索引擎索引。

　　参考智能时代的数学之美。以上就是对搜索引擎核心技术的详细讲解。

　　本文由@一个Brociflower 发布原创给大家是产品经理。未经许可禁止转载

　　标题图片来自Unsplash，基于CC0协议

0

2021-12-29

网页视频抓取器手机版

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取器手机版(网络爬虫的发展、搜索引擎的特性实用的爬虫系统应该具备哪些)

0 个评论

发起人

AI时代内容工厂

网页视频抓取器手机版(网络爬虫的发展、搜索引擎的特性实用的爬虫系统应该具备哪些)

0 个评论

发起人

相关问题