网页抓取数据百度百科(最近有个需求就是如何通过一个URL获取中的一些信息)
优采云 发布时间: 2022-02-22 16:06网页抓取数据百度百科(最近有个需求就是如何通过一个URL获取中的一些信息)
最近有一个需求,就是如何通过URL获取网页源代码中的一些信息。网上查了一些方法,发现有个叫JSOUP的东西可以满足我们的需求。
JSOUP简介
百度百科的简单介绍:jsoup是一个Java HTML解析器,可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API,用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。
具体可以百度,介绍的应该挺详细的。
JSOUP 开发指南:
如何使用 JSOUP
JSOUP 的使用非常简单。首先,我们需要下载JSOUP的jar包。我在这里使用 jsoup-1.7.3.jar。网上也有更多的地方可以下载。更多,jar包这里就不分享了。
好的,下载后将jar包复制到我们项目的libs目录下。下面是一个简单的例子来介绍如何使用它:
代码片段:
Document doc;
try {
doc = Jsoup
.connect(final_url)
.header("User-Agent",
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2")
.get();
itemid = doc.getElementById("dsr-userid").val();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
首先,定义一个 Document 对象。 DOM(Document Object Model)是前端中一个比较重要的概念。有兴趣的朋友可以了解一下,然后通过jsoup读取网页的源码内容,其中final_url是代表你需要访问的URL。
getElementById("dsr-userid").val()
这行代码这部分是javascript中的语法,意思是获取id名为“dsr-userid”的控件的值
如上图,itemid的值为92688455。
好的,通过这样一个例子,实现了一个简单的jsoup操作。更多方法,需要参考上面提供的帮助文档来完成! ! !