java爬虫抓取动态网页(Web爬虫的结构(可创建一个网站地图)下载)

优采云发布时间: 2021-10-25 23:07

　　Heritrix

　　Heritrix 是一个开源、可扩展的网络爬虫项目。 Heritrix 的设计严格遵循 robots.txt 文件和 META 机器人标签的排除说明。

　　WebSPHINX

　　WebSPHINX 是 Java 类包和网络爬虫的交互式开发环境。网络爬虫（也称为机器人或蜘蛛）是可以自动浏览和处理网页的程序。 WebSPHINX由爬虫工作平台和WebSPHINX包两部分组成。

　　WebLech

　　WebLech 是一个强大的网站下载和镜像工具。支持根据功能需求下载网站，并尽可能模仿标准网页浏览器的行为。 WebLech 有功能控制台，使用多线程操作。

　　阿拉蕾

　　Arale 主要供个人使用，不像其他爬虫那样专注于页面索引。 Arale 可以下载整个网站或网站上的部分资源。 Arale 还可以将动态页面映射到静态页面。

　　J-蜘蛛

　　J-Spider：是一个完全可配置和可定制的 Web Spider 引擎。可以用它来检查网站错误（内部服务器错误等），网站内外部链接检查，分析网站的结构（可以创建一个网站@ > map)，下载整个网站，也可以写一个JSpider插件扩展你需要的功能。

　　主轴

　　spindle 是一个建立在 Lucene 工具包上的 Web 索引/搜索工具。它包括一个用于创建索引的 HTTP 蜘蛛和一个用于搜索这些索引的搜索类。主轴项目提供了一套JSP标签库，让那些基于JSP的站点无需开发任何Java类即可添加搜索功能。

　　蛛形纲动物

　　Arachnid：是一个基于 Java 的网络蜘蛛框架。它收录一个简单的 HTML 解析器，可以分析收录 HTML 内容的输入流。通过实现Arachnid子类，可以开发一个简单的Web蜘蛛，可以在网站上使用页面上的每个页面解析完成后，添加几行代码调用。 Arachnid 下载包中收录两个蜘蛛应用程序示例，用于演示如何使用该框架。

　　警报

　　LARM 可为 Jakarta Lucene 搜索引擎框架的用户提供纯 Java 搜索解决方案。它收录索引文件、数据库表和用于索引网站的爬虫的方法。

　　乔博

　　JoBo 是一个用于下载整个网站的简单工具。它本质上是一个网络蜘蛛。与其他下载工具相比，它的主要优点是能够自动填写表单（如自动登录）和使用cookies来处理会话。 JoBo 也有灵活的下载规则（如：URL、大小、MIME 类型等）来限制下载。

　　snoics-爬行动物

　　snoics-reptile 是用纯 Java 开发的。它是一个用于网站图像捕获的工具。可以使用配置文件中提供的URL入口来转换这个网站所有可以使用的浏览器通过GET获取的资源都是本地抓取的，包括网页和各种类型的文件，比如图片、flash、 mp3、zip、rar、exe等文件。整个网站可以完全转移到硬盘上，保持原有的网站结构准确不变。只需将捕获到的网站放入Web服务器（如Apache）即可实现完整的网站镜像。

　　下载链接：

　　snoics-reptile2.0.part1.rar

　　snoics-reptile2.0.part2.rar

　　snoics-reptile2.0-doc.rar

　　网络收获

　　Web-Harvest 是一个 Java 开源 Web 数据提取工具。它可以采集指定的网页并从这些网页中提取有用的数据。 Web-Harvest 主要使用 XSLT、XQuery、正则表达式等技术来实现对 text/xml 的操作

0

2021-10-25

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页(Web爬虫的结构(可创建一个网站地图)下载)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取动态网页(Web爬虫的结构(可创建一个网站地图)下载)

0 个评论

发起人

相关问题