seo优化全解第1版-搜索引擎入门详解(latbin的作用简单介绍larbin的性能特征和实际应用)
优采云 发布时间: 2022-01-20 02:14seo优化全解第1版-搜索引擎入门详解(latbin的作用简单介绍larbin的性能特征和实际应用)
【1】拉宾简介
larbin 是一个开源的网络爬虫/网络蜘蛛,由年轻的法国人 Sébastien Ailleret 独立开发。larbin 的目的是能够跟踪页面的 URL 进行扩展爬取,最终为搜索引擎提供广泛的数据源。
larbin只是一个爬虫,也就是说larbin只爬网页,怎么解析是用户自己做的。此外,larbin 没有提供如何存储到数据库和建立索引。
latbin最初的设计也是本着设计简单但可配置性高的原则,所以我们可以看到一个简单的larbin爬虫每天可以获取500万个网页,效率很高。
[2] Larbin的性能特点: 高效,一个小时基本爬取3G网页。将近 200,000 页;url解析:2-3百万/小时
【3】larbin的作用
简单介绍一下larbin的作用和实际应用。
1. larbin 获取单个的所有连接点,当然是 网站,甚至可以镜像一个 网站。
2. larbin 构建一个url列表组,例如对所有网页进行url retrive后,得到xml链接。或mp3。
3. 定制后,larbin可以作为搜索引擎的信息来源(例如,2000组爬取的网页可以存储在一系列目录结构中)。
总而言之,larbin应该是广大搜索引擎爱好者应该关注的产品。虽然它的功能逐渐被Nutch所接受和取代,但它在履带上的精美设计确实值得称道。