c httpclient抓取网页(一下Java语言环境中能够用于网页下载或信息提取的工具)
优采云 发布时间: 2022-03-15 08:19c httpclient抓取网页(一下Java语言环境中能够用于网页下载或信息提取的工具)
如果您需要从 Internet 下载特定网页,或者从网页中解析特定信息,那么这个 文章 将帮助您。下面我列出了Java语言环境下可用于网页下载或信息提取的工具。以下工具各有特点。
Web-harvest 是一个开源的 Java 网页信息提取工具。它主要使用XQuery、XPath、正则表达式和javascript等脚本语言从网页中提取字段信息。提取信息的灵活性和准确性主要来自于 XPath 和 XQuery。Web-harvest 提供了一个可以在 JRE 环境中执行的 jar 文件。运行这个文件可以执行一个简单的XML类型的配置文件,就是你定义的网页访问和解析规则。你可以简单的使用执行程序中的xml配置文件,他也可以通过javaapi进行更复杂的开发。它支持使用代理服务器。性能较差,更适合小而简单的程序。
HttpClient是Apache的一个子项目,支持所有http协议,可以管理cookie信息。它的强项在于访问网页,但它不具备解析网页的能力。还有两个比较实用的功能是指定代理服务器,如果你有多个网卡和多个网络,也可以指定网络出口。
Jsoup 是一个非常方便的网页访问和解析工具。它可以用非常简单的代码访问网页,并通过一种叫做css的格式提取网页的信息。非常简单易学,处理效率也很高。另外,它只能用来解析传入的html字符串,所以结合其他工具开发程序非常容易。
SWT下的WebBrowser,首先SWT是Eclipse下的一个图形化开发工具包,其中WebBrowser允许你调用系统中的浏览器,比如IE或者Firefox,相当于把浏览器嵌入到你的java程序中。它最大的优点是可以完全模拟浏览器,所以可以执行以上工具无法执行的javascript和css,让系统浏览器管理你的cookies。当然WebBrowser是异步的,需要*敏*感*词*complete事件来判断页面是否加载并绘制。并在竞技赛事中进行后续处理。它有一个很亮眼的特性就是它可以让你执行你传入的Javascipt。
以上是过去工作中实际使用过的工具。您可以选择自己的优势并一起使用。我希望它会帮助你。