jquery抓取网页内容(Java开发中的HTML解析器(4)支持代理服务器)

优采云 发布时间: 2021-09-22 06:06

  jquery抓取网页内容(Java开发中的HTML解析器(4)支持代理服务器)

  (4) support代理服务器

  (5)支持自动cookies管理等。

  java爬虫开发应用到一个网页获取技术,速度和性能,在功能支持中更具潜力,不支持JS脚本执行,CSS分辨率,渲染等,推荐用于快速获取网页如果不解析脚本和CSS的场景。

  示例代码如下:

  jsoup

  jsoup是一个Java HTML解析器,可以直接解析URL地址和HTML文本内容。它提供了一种非常植入的API,可以使用DOM,CSS和类似于jQuery的方法进行删除和运行。

  网页采集和分辨率快速,推荐。

  主要功能如下:

  1.从URL,文件或字符串分析HTML;

  2.使用DOM或CSS选择器查找,删除数据;

  3.可操作的html元素,属性,文本;

  示例代码如下:

  htmlunit

  htmlUnit是一个开源Java页面分析工具,可以在阅读页面后有效地在HTMLUnit分析页面上使用。该项目可以模拟浏览器运行,称为Java浏览器的开源实现。没有接口的浏览器也很快运行。它是rhinojs发动机。模拟JS运行。

  页面获取和分辨率更快,性能更好,建议使用应用方案来解析Web脚本。

  示例代码如下:

  watij

  watij(发音wattage)是由Java开发的Web应用程序测试工具,鉴于Watij的简单性和Java语言的力量,Watij可以在真实浏览器中完成Web应用程序。因为它被称为本地浏览器,所以支持CSS渲染和JS执行。

  页面获取速度是通用的,IE版本太低(6 / 7)可能导致内存泄露。

  示例代码如下:

  selenium

  Selenium也是Web应用程序测试的工具。 Selenium Test直接在浏览器中运行,就像真实用户正在运行一样。支持的浏览器包括IE,Mozilla Firefox,Mozilla套件等。此工具的主要功能包括:测试和浏览器兼容性 - 测试您的应用程序,以查看您是否可以在不同的浏览器和操作系统上工作。测试系统功能 - 创建经济衰退测试检验软件功能和用户需求。支持自动录制动作和自动生成。 net,java,perl等不同语言。 Selenium是专门为Web应用程序的思考编写的验收测试工具。

  页面较慢,不是爬行动物的不错选择。

  示例代码如下:

  webspec

  具有接口的开源Java浏览器,支持脚本执行和CSS呈现。速度是一般的。

  示例代码如下:

  源代码下载:网络爬虫(网络蜘蛛)Web Grab示例源

  转载,请在文章 @ @ @出网网:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线