资源推荐 | 五十种最好用的开源爬虫软件

优采云发布时间: 2022-05-12 12:05

　　网络爬虫是一种自动化程序或脚本，根据设定的数据爬取索引系统地爬取 Web 网页。整个过程称为 Web 数据采集（Crawling）或爬取（Spidering）。

　　人们通常将用于爬取的工具称为爬虫（Web Spider）、Web 数据抽取软件或 Web 网站采集工具。

　　当前 Web 爬取应用广受关注，一个重要的原因在于它们从多个方面上推进了业务的加速增长。这些应用非常便于在数据驱动的大环境中使用。它们从多个公开的网站采集信息和内容，并按统一可管理的方式提供。在这些应用的帮助下，我们可以一窥遍布全球的海量信息，例如新闻、社会媒体、图片、文章，甚至是竞争对手的情况。

　　为更好地采用各种爬取应用，我们需要做好调研，了解各种应用的不同功能和相同特性。我们将在本文中介绍多种不同的开源 Web 爬取软件库和工具。本文有助于读者实现爬取、采集网站数据并分析数据。

　　我们全面地总结了一些最好的开源 Web 爬取软件库和工具，并按实现语言的不同进行了分类。

　　Python 编写的开源 Web 爬虫1. Scrapy

　　简介

　　特性

　　2. Cola简介

　　特性

　　3. Crawley简介

　　特性

　　4. MechanicalSoup简介

　　特性

　　5. PySpider简介

　　特性

　　6. Portia简介

　　特性

　　7. Beautifulsoup简介

　　特性

　　8. Spidy 爬虫简介

　　特性

　　9. Garb简介

　　特性

　　Java 编写的开源 Web 爬虫10. Apache Nutch

　　简介特性：11. Heritrix简介：

　　在使用 Java 编写的免费开源 Web 爬虫中，Heritrix 是其中一种得到广泛使用的工具。事实上，它是一种可扩展、Web 规模、存档质量（archival-quality）的 Web 爬取项目。Heritrix 是一种扩展能力和性能很好的解决方案，支持用户即刻爬取并归档一组网站。此外，它在设计上考虑了 robots.txt 禁止规则和 META 机器人标签。Heritrix 可运行在 Linux/Unix 和 Windows 系统上。

　　特性：12. ACHE 爬虫简介：

　　ACHE 是一种专用于特定用途的 Web 爬虫。ACHE 爬取满足特定标准的 Web 页面。例如，属于特定领域并包含用户指定模式的页面。不同于通用爬虫，ACHE 使用页面分类器遴选特定领域中的相关和无关页面。页面分类器可以是基本的正则表达式（例如，匹配所有包含给定单词的页面），也可以基于机器学习的分类模型。ACHE 也可以自动学习如何对链接做优先处理，实现高效地定位相关内容，避免检索无关的页面内容。

　　特性：13. Crawler4j简介：14. Gecco简介：

　　Gecco 是一种使用 Java 开发的轻量级 Web 爬虫，易于使用。Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器，就能很快地建立一个爬虫。Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭式设计原则，对改进封闭，对扩展开放。

　　特性：15. BUbiNG简介：

　　BUbiNG 令人惊喜，它可称为下一代的开源 Web 爬虫。BUbiNG 是一种 Java 开发的完全分布式爬虫（无需中央协调），每秒可爬取数千个网页，并支持采集*敏*感*词*数据集。BUbiNG 的分布式是基于高速协议实现的，因此可以获得非常高的通量。BUbiNG 提供对海量数据的*敏*感*词*爬取。它完全可配置、易于扩展，并可集成垃圾信息检测。

　　特性：16. Narconex简介：

　　对于寻求可满足企业级需求的开源 Web 爬虫的用户而言，Narconex 是一种很好的工具。Norconex 支持用户爬取任何 Web 内容。用户可以独立运行这种全功能数据采集器，或是将其集成在自己的应用中。支持所有操作系统。可在具有一般容量的单体服务器上爬取数百万信息。此外，Narconex 提供多种内容和元数据操作特性，还可以抽取页面中特定的图像。

　　特性：17. WebSPHINX简介：

　　WebSphinix 是一种非常易于使用的可定制 Web 爬虫。它设计用于高级 Web 用户和 Java 编程人员，支持他们自动爬取小部分 Web。WebSphinix 数据抽取解决方案也提供了一种全面的 Java 类库和交互式软件开发环境。WebSphinix 包括两部分：爬虫基准测试（Crawler Workbench），WebSPHINX 类库。爬虫基准测试提供了很好的用户图形接口，支持用户配置并控制定制的 Web 爬虫。WebSPHINX 类库为使用 Java 编写 Web 爬虫提供支持。WebSphinix 支持运行在 Windows、Linux、Mac 和 Android IOS 上。

　　特性：18. Spiderman简介：

　　Spiderman 是一种 Java 开源 Web 数据抽取工具。它采集特定的 Web 页面，并从中抽取有用数据。Spiderman 主要使用 XPath 和正则表达式等技术抽取实际数据。

　　特性：19. WebCollector :简介：

　　WebCollector 是一种基于 Java 的开源 Web 爬虫框架。它为实现 Web 爬取功能提供了一下基本的接口。用户可以使用它在五分钟内建立起一个多线程爬虫。

　　特性：20. Webmagic简介：

　　WebMagic 是一种可扩展的爬虫框架。WebMagic 涵盖了爬虫的整个生命周期，包括下载、URL 管理、内容抽取和持久化。可用于简化一些特定爬虫的开发。

　　特性：21. StormCrawler简介：

　　StormCrawler 是一种基于 Apache Storm 构架分布式 Web 爬虫的开源 SDK。StormCrawler 为开发人员构建爬虫提供了软件库和一系列资源。StormCrawler 完全适用于以数据流提供需获取和解析的 URL 的情况，也非常适用于*敏*感*词*递归性爬取，尤其是需要低延迟的情况。

　　特性：JavaScript 编写的开源 Web 爬虫22. NodeCrawler简介：

　　NodeCrawler 是一种广为使用的 Web 爬虫，它基于 NodeJS 实现，具有非常快的爬取速度。Nodecrawler 非常适用于偏爱使用 JavaScript 编程或者致力于 JavaScript 项目的开发人员。其安装也非常简单。JSDOM 和 Cheerio（用于 HTML 解析）实现服务器端渲染。其中，JSDOM 更为稳定。

　　特性：23. Simplecrawler简介：

　　Simplecrawler 设计提供基本的、灵活且稳定的网站爬取 API。Simplecrawler 在实现上考虑了针对特大型 Web 站点的归档、分析和搜索。它可爬取上百万页面，并毫无问题地向磁盘写入数十 GB 数据。

　　特性：24. Js-crawler :简介：25. Webster简介：26. Node-osmosis简介：

　　一种使用 NodeJS 实现的 HTML/XML 解析器和 Web 爬虫。

　　特性：27. Supercrawler简介：

　　Supercrawler 是一种使用 NodeJS 实现的 Web 爬虫，在设计上支持高度可配置和易用性。一旦成功爬取一个网页（可以是图像、文本文档或其他任何文件），Supercrawler 将会触发用户自定义的内容类型（content-type）处理器，处理页面解析、保存数据以及其它一些用户定义的功能。

　　特性：28. Web scraper 的 Chrome 扩展简介：

　　Web Scraper 是一种 Chrome 浏览器扩展，构建用于从 Web 页面抽取数据。用户可以使用该扩展创建计划（站点地图），定义如何遍历一个 Web 网站，以及如何从中抽取数据。Web Scraper 使用站点地图相应地遍历网站，并从中抽取数据。支持以 CSV 格式导出所抽取的数据。

　　特性：29. Headless Chrome 爬虫简介：

　　使用基本 HTML 文件请求的爬虫，通常速度很快。但这样的爬虫往往会抽取到空白内容，尤其是在爬取使用 AngularJS、React 和 Vue.js 等现代前端框架构建的网站时。

　　特性：30. X-ray特性：C 编写的开源 Web 爬虫31. Httrack简介：

　　HTTracks 是一项免费（GPL、Libre/ 自由软件）且易于使用的离线浏览器功能。支持用户将 Web 站点下载到本地目录，递归构建全部目录，以及获取 HTML、图像和其它文件到本地计算机。HTTrack 会维持原站点的相对链接结构。用户可以用浏览器打开本地的“镜像”页面，并逐个链接浏览，与在线浏览无异。HTTrack 也支持对已有镜像站点的更新，以及从中断点恢复下载。HTTrack 高度可配置，并提供帮助文档。

　　特性：32. GNU Wget简介：

　　GNU Wget 是一种免费软件包，它使用 HTTP、HTTPS、FTP、FTPS 等广为使用的互联网协议检索文件。Wget 是一种非交互式命令行工具，易于从脚本、Cron 任务、不具有 X 窗口支持的终端等处调用。

　　特性：C++ 编写的开源 Web 爬虫33. gigablast简介：

　　Gigablast 是一种开源的 Web 和企业搜索引擎，也是一种爬虫。Gigablast 是自身维护数十亿页面检索索引的数家美国搜索引擎之一。

　　特性：C# 编写的开源 Web 爬虫34. 简介：

　　适用于寻求开源 Web 爬虫的 C# 开发人员。软件类库从因特网下载内容、对内容做索引，并对过程做定制。用户可使用该工具做个人内容聚合，也可用于将下载的内容抽取、采集和解析为多个表单。索引所发现的内容，并存储在 Lucene.NET 索引中。非常适用于文本挖掘，也适用于学习高级爬取技术。

　　特性：35. Abot简介：

　　Abot 是一种 C# 实现的开源 Web 爬虫，主要侧重于速度和灵活性。Abot 在实现中考虑了底层技术细节，包括多线程、HTTP 请求、调度、链接解析等。用户只需注册事件，就可以处理分页数据。支持用户插入自己的核心接口实现，实现对整个爬取过程的完全控制。

　　特性：36. Hawk简介：

　　HAWK 无需用户做任何编程，提供图形可视化数据获取和清理工具，并以 GPL 协议开源。

　　特性：37. SkyScraper简介：.NET 编写的 Web 爬虫38. DotnetSpider简介：PHP 编写的开源 Web 爬虫39. Goutte简介：40. Dom-crawler简介：41. Pspider简介：42. Php-spider简介：

　　一种可配置、可扩展的 Web 爬虫。

　　特性：43. Spatie / Crawler简介：Ruby 实现的开源 Web 爬虫44. Mechanize简介：GO 编写的开源 Web 爬虫45. Colly简介：

　　为 Go 爱好者提供了一种快速且适用的爬取框架。Colly 提供了非常清晰的接口，可用于编写任何类型的爬虫和数据获取工具。Colly 使得用户可以轻易地从站点抽取结构化数据。这些数据适用于大范围的应用，例如数据挖掘、数据处理和归档。

　　特性：46. Gopa特性：47. Pholcus简介：

　　Pholcus 是一种完全使用 Go 语言实现的高并发性、重量级爬虫软件。它针对因特网数据采集，为只具有基本 Go 或 JavaScript 编程基础的用户提供了一种只需要关注自定义功能的特性。规则简单灵活，并发批处理任务，提供丰富的输出方式，包括 MySQL、MongoDB、Kafka、CSV、Exvel 等。用户共享了大量的演示。此外，Pholcus 支持两种水平和垂直爬取模式，支持模拟登陆、暂停任务、取消任务等一系列高级特性。

　　特性：R 编写的开源 Web 爬虫48. Rvest简介：Scala 编写的开源 Web 爬虫49. Sparkler简介：

　　Web 爬虫是一种机器人程序，它从 Web 网站采集资源，用于构建搜索引擎、知识库等应用。Sparkler（“Spark-Crawler”的缩写）是一种新型的 Web 爬虫，它通过整合 Spark、Kafka、Lucene/Solr、Tika、pf4j 等多种 Apache 项目，使用了分布式计算和信息检索领域的最新进展。

　　特性：Perl 编写的开源 Web 爬虫50. Web-scraper简介：总结

　　开源 Web 爬取应用纷繁多样，在此难以一一枚举。每种爬取应用分别各具特长，适用于不同用户的需求。

　　用户可根据自己的需求和技术要求选取适用的工具。也许用户会从上述工具中做出选择，也许会选择本文列表之外的工具。在实践中，用户只需根据任务的不同做出一个合理的选择，这完全取决于最终用户。其中至关重要的是，用户必须要了解每种工具的独特优势，并利用这些优势服务于用户自身的业务，或是自身所承担的其它任何任务。

　　欢迎与我们就此开展交流！

　　查看英文原文：

　　如果你喜欢这篇文章，或希望看到更多类似优质报道，记得给我留言和点赞哦！

0

2022-05-12

php用正则表达抓取网页中文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

资源推荐 | 五十种最好用的开源爬虫软件

0 个评论

发起人