java爬虫抓取动态网页(学习Java的同窗注意了!!(附学习源码))

优采云 发布时间: 2021-09-25 20:38

  java爬虫抓取动态网页(学习Java的同窗注意了!!(附学习源码))

  学习Java的同学注意啦!!!

  如果您在学习过程中遇到任何问题或者想获取学习资源,欢迎加入Java学习交流群,群号:183993990,一起学Java吧!html

  本文文章来自个人回答:GitHub上有哪些优秀的Java爬虫项目?但是在这个答案中,进行了一些更改并添加了一些项目。这些项目来自github和开源中国。希望这些开源的Java爬虫项目对你有所帮助。阅读源代码可以帮助您获得质的提升。

  一、格科

  github地址:xtuhcy/gecco

  Gecco是一个用java语言开发的轻量级易用的网络爬虫。集成jsoup、httpclient、fastjson、spring、htmlunit、redission等框架,只需要配置一些jquery风格的选择器即可快速编写爬虫。Gecco 框架具有出色的可扩展性。框架按照开闭原则设计,封闭用于修改,开放用于扩展。

  二、WebCollector

  github地址:CrawlScript/WebCollector

  WebCollector是一个无需配置,方便二次开发的JAVA爬虫框架(内核)。它提供了精简的API,只需很少的代码即可实现强大的爬虫。WebCollector-Hadoop 是WebCollector 的Hadoop 版本,支持分布式爬取。

  三、蜘蛛侠

  码云地址:l-weiwei/Spiderman2-码云-开源中国

  用例:展示垂直爬虫的能力——如风般自由

  蜘蛛侠是一个基于微内核+插件架构的网络蜘蛛。它的目标是通过简单的方法,将复杂的目标网页信息捕获并解析成它需要的业务数据。

  四、WebMagic

  码云地址:flashsword20/webmagic-码云-中国开源

  webmagic是一个爬虫框架,不需要配置,方便二次开发。它提供了一个简单灵活的API,只需很少的代码就可以实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫生命周期(连接提取、页面下载、内容提取、持久化),支持多线程爬取、分布式爬取,支持自动重试和自定义UA/Cookies等功能。

  

  五、Heritrix

  Github 地址:internetarchive/heritrix3 Heritrix 是一个开源、可扩展的网络爬虫项目。用户可以使用它从互联网上获取他们想要的资源。Heritrix 的设计严​​格遵循 robots.txt 文件和 META 机器人标签的排除说明。其最突出的特点是良好的扩展性,方便用户实现自己的抓取逻辑。

  

  六、crawler4j

  GitHub 地址:yasserg/crawler4j · GitHub crawler4j 是一个用 Java 实现的开源网络爬虫。提供简单易用的界面,可以在几分钟内构建一个多线程的网络爬虫。

  七、Nutchjava

  github地址:apache/nutchjquery

  Nutch 是一个用开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的所有工具。包括全文搜索和网络爬虫。

  在 Nutch 的发展过程中,产生了四个 Java 开源项目,Hadoop、Tika、Gora 和 Crawler Commons。现在这四个项目发展迅速,非常火爆,尤其是Hadoop,已经成为*敏*感*词*数据处理的事实标准。Tika 使用各种现有的开源内容分析项目从多种格式的文件中提取元数据和结构化文本。Gora 支持将大数据持久化到多个存储实现。Crawler Commons 是一个通用的网络爬虫组件。.

  八、SeimiCrawlergit

  github地址:zhegexiaohuozi/SeimiCrawlergithub

  SeimiCrawler 是一个敏捷、独立部署、支持分布式Java 爬虫框架。希望能最大程度的降低新手开发高可用、低性能的爬虫系统的门槛,提高爬虫系统的开发效率。在 SeimiCrawler 的世界里,大多数人只需要关心编写爬行的业务逻辑,其他 Seimi 会为你做。在设计上,SeimiCrawler 的灵感来自于 Python 的爬虫框架 Scrapy,同时融合了 Java 语言的特性和 Spring 的特性,希望在国内能更方便、更广泛地使用更多的 HTML 解析高效的XPath,所以SeimiCrawler的默认HTML解析器是JsoupXpath(独立的扩展项目,不收录在jsoup中),HTML数据的默认解析和提取是使用XPath完成的(当然数据处理也可以选择其他解析器)。并结合SeimiAgent,彻底解决复杂的动态页面渲染和爬取问题。

  

  九、Jsoupweb

  github地址:jhy/jsoupredis

  中文指南:jsoup开发指南、jsoup中文文档spring

  jsoup 是一个 Java HTML 解析器,可以直接解析 URL 地址和 HTML 文本内容。它提供了一个非常省力的API,可以通过DOM、CSS和类似jQuery的操作方法来检索和操作数据。学习Java的同学注意啦!!!

  如果您在学习过程中遇到任何问题或者想获取学习资源,欢迎加入Java学习交流群,群号:183993990,一起学Java吧!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线