java爬虫抓取网页数据(主流java爬虫框架有哪些?(1)框架)

优采云 发布时间: 2021-11-15 00:06

  java爬虫抓取网页数据(主流java爬虫框架有哪些?(1)框架)

  文本

  一、目前主流的java爬虫框架包括

  

  Python中有Scrapy和Pyspider;

  Java中有Nutch、WebMagic、WebCollector、heritrix3、Crawler4j

  这些框架的优缺点是什么?

  (1),Scrapy:

  

  Scrapy 是一个由 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站并从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。

  Scrapy 的吸引力在于它是一个任何人都可以根据自己的需要轻松修改的框架。它还提供了多种爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本还提供了web2.0爬虫支持。

  废料意味着碎片化。这个 Python 爬虫框架叫做 Scrapy。

  优势:

  1.极其灵活的自定义爬取。

  2. 社区人数比较多,文档比较齐全。

  3.URL 去重采用 Bloom filter 方案。

  4. 可以处理不完整的 HTML,Scrapy 提供了选择器(一个基于 lxml 的更高级的接口),

  可以有效处理不完整的 HTML 代码。

  缺点:

  1.对新生不友好,需要一定的新手期

  (2),Pyspider:

  

  pyspider是一个用python实现的强大的网络爬虫系统。它可以在浏览器界面实时编写脚本、调度函数和查看爬取结果。后端使用常用的数据库来存储爬取结果。可以定期设置任务和任务优先级。

  优势:

  1.支持分布式部署。

  2.完全可视化,非常人性化:WEB界面编写调试脚本、启停脚本、监控执行状态、查看活动历史、获取结果。

  3.简单,五分钟即可上手。脚本规则简单,开发效率高。支持抓取 JavaScript 页面。

  总之,Pyspider 非常强大,强大到它更像是一个产品而不是一个框架。

  缺点:

  1.URL 去重使用数据库代替 Bloom 过滤器,数亿存储的 db io 会导致效率急剧下降。

  2. 使用中的人性化牺牲了灵活性并降低了定制能力。

  (3)Apache Nutch (更高)

  

  Nutch 是专为搜索引擎设计的爬虫。大多数用户需要一个爬虫来进行准确的数据爬取(精细提取)。在 Nutch 运行的一组进程中,三分之二是为搜索引擎设计的。

  Nutch的框架需要Hadoop运行,Hadoop需要开集群。对于那些想快速上手爬虫的人来说,我很沮丧......

  这里列出了一些资源地址,也许以后会学到。

  纳奇官网

  1.Nutch支持分布式爬取,并且有Hadoop支持,可以进行多机分布式爬取、存储和索引。另一个非常吸引人的地方是它提供了一个插件框架,可以方便的扩展各种网页内容分析、各种数据采集、查询、聚类、过滤等功能。因为有了这个框架,Nutch的插件开发非常容易,第三方插件也层出不穷,大大提升了Nutch的功能和口碑。

  缺点

  1.Nutch的爬虫定制能力比较弱

  (4), WebMagic

  

  WebMagic 是一个简单灵活的 Java 爬虫框架。基于WebMagic,您可以快速开发一个高效且易于维护的爬虫。

  优势:

  1.简单的API,可以快速上手

  2.模块化结构,易于扩展

  3.提供多线程和分布式支持

  缺点:

  1.不支持JS页面爬取

  (5), WebCollector

  

  WebCollector 是一个JAVA爬虫框架(内核),无需配置,方便二次开发。它提供了精简的API,只需少量代码即可实现功能强大的爬虫。WebCollector-Hadoop 是WebCollector 的Hadoop 版本,支持分布式爬取。

  优势:

  1.基于文本密度自动提取网页正文

  2.支持断点重爬

  3.支持代理

  缺点:

  1. 不支持分布式,只支持单机

  2.无URL优先调度

  3.不是很活跃

  (6), Heritrix3

  

  Heritrix是一个由java开发的开源网络爬虫,用户可以使用它从网上抓取自己想要的资源

  优势

  Heritrix 的爬虫有很多自定义参数

  缺点

  1.单实例爬虫不能相互配合。

  2. 在机器资源有限的情况下,需要复杂的操作。

  3. 仅官方支持,仅在 Linux 上测试。

  4.每个爬虫独立工作,更新没有任何修改。

  5. 在发生硬件和系统故障时,恢复能力较差。

  6. 花在优化性能上的时间很少。

  7.相比Nutch,Heritrix只是一个爬虫工具,没有搜索引擎。如果要对爬取的站点进行排序,则必须实现类似于 Pagerank 的复杂算法。

  (7), Crawler4j

  

  Crawler4j 是一个基于 Java 的轻量级独立开源爬虫框架

  优势

  1.多线程采集

  2. 内置Url过滤机制,BerkeleyDB用于URL过滤。

  3. 可以扩展支持网页字段的结构化提取,可以作为一个垂直的采集

  缺点

  1. 不支持动态网页爬取,比如网页的ajax部分

  2.不支持分布式采集,可以认为是分布式爬虫的一部分,客户端采集部分

  为了让这7个爬虫框架更加直观,我做了一个框架优缺点对比图,如下:

  

  Jsoup(经典·适合静态网友)

  这个框架堪称经典,也是我们暑期培训老师讲解的框架。有近乎完整的文档介绍。

  和 HtmlUnit 一样,只能获取静态内容。

  不过这个框架有一个优势,它有非常强大的网页解析功能。

  Jsoup中文教程

  selenium(多位谷歌高管参与开发)

  感觉很棒,但实际上真的很棒。看官网和其他人的介绍,是真正的模拟浏览器。GitHub1.4w+star,你没看错,有几万个。但我只是没有一个好的环境。入门Demo就是不能成功运行,所以放弃了。

  硒官方GitHub

  cdp4j(方便快捷,但需要依赖谷歌浏览器)

  使用先决条件:

  安装 Chrome 浏览器,就是这样。

  简要介绍:

  HtmlUnit的优点是可以轻松抓取静态网民;缺点是只能抓取静态网页。

  selenium 的优点是可以爬取渲染出来的网页;缺点是需要配备环境变量等。

  两者结合,相互学习,还有cdp4j。

  选择它的原因是真的很方便好用,而且官方文档很详细,Demo程序基本可以运行,类名众所周知。我在学习软件工程的时候,一直在想,我为什么要写文档?我的程序能不能实现这些功能不重要吗?如今,看着如此详细的文件,我留下了激动和遗憾的泪水……

  cdp4j 有很*敏*感*词*:

  一种。获取渲染后的网页源码

  湾 模拟浏览器点击事件

  C。下载网页上可以下载的文件

  d. 截取网页截图或转换为 PDF 进行打印

  e. 等待

  更详细的信息可以在以下三个地址中找到:

  【cdp4j官网地址】

  [Github 存储库]

  [演示列表]

  总结

  以上框架各有优缺点。其中cdp4j方便,功能齐全,但个人觉得唯一的缺点就是需要依赖谷歌浏览器。

  下面这篇文章打算使用手册:httpclient +jsoup+selenium来实现java爬虫功能。使用httpclient抓取,jsoup解析页面,90%的页面都可以处理,剩下的会用selenium;

  参考链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线