jquery抓取网页内容(Java开发中的HTML解析器(4)支持代理服务器)
优采云 发布时间: 2021-09-22 06:06jquery抓取网页内容(Java开发中的HTML解析器(4)支持代理服务器)
(4) support代理服务器
(5)支持自动cookies管理等。
java爬虫开发应用到一个网页获取技术,速度和性能,在功能支持中更具潜力,不支持JS脚本执行,CSS分辨率,渲染等,推荐用于快速获取网页如果不解析脚本和CSS的场景。
示例代码如下:
jsoup
jsoup是一个Java HTML解析器,可以直接解析URL地址和HTML文本内容。它提供了一种非常植入的API,可以使用DOM,CSS和类似于jQuery的方法进行删除和运行。
网页采集和分辨率快速,推荐。
主要功能如下:
1.从URL,文件或字符串分析HTML;
2.使用DOM或CSS选择器查找,删除数据;
3.可操作的html元素,属性,文本;
示例代码如下:
htmlunit
htmlUnit是一个开源Java页面分析工具,可以在阅读页面后有效地在HTMLUnit分析页面上使用。该项目可以模拟浏览器运行,称为Java浏览器的开源实现。没有接口的浏览器也很快运行。它是rhinojs发动机。模拟JS运行。
页面获取和分辨率更快,性能更好,建议使用应用方案来解析Web脚本。
示例代码如下:
watij
watij(发音wattage)是由Java开发的Web应用程序测试工具,鉴于Watij的简单性和Java语言的力量,Watij可以在真实浏览器中完成Web应用程序。因为它被称为本地浏览器,所以支持CSS渲染和JS执行。
页面获取速度是通用的,IE版本太低(6 / 7)可能导致内存泄露。
示例代码如下:
selenium
Selenium也是Web应用程序测试的工具。 Selenium Test直接在浏览器中运行,就像真实用户正在运行一样。支持的浏览器包括IE,Mozilla Firefox,Mozilla套件等。此工具的主要功能包括:测试和浏览器兼容性 - 测试您的应用程序,以查看您是否可以在不同的浏览器和操作系统上工作。测试系统功能 - 创建经济衰退测试检验软件功能和用户需求。支持自动录制动作和自动生成。 net,java,perl等不同语言。 Selenium是专门为Web应用程序的思考编写的验收测试工具。
页面较慢,不是爬行动物的不错选择。
示例代码如下:
webspec
具有接口的开源Java浏览器,支持脚本执行和CSS呈现。速度是一般的。
示例代码如下:
源代码下载:网络爬虫(网络蜘蛛)Web Grab示例源
转载,请在文章 @ @ @出网网: