网页抓取数据百度百科(最近有个需求就是如何通过一个URL获取中的一些信息)

优采云发布时间: 2022-02-22 16:06

　　最近有一个需求，就是如何通过URL获取网页源代码中的一些信息。网上查了一些方法，发现有个叫JSOUP的东西可以满足我们的需求。

　　JSOUP简介

　　百度百科的简单介绍：jsoup是一个Java HTML解析器，可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API，用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。

　　具体可以百度，介绍的应该挺详细的。

　　JSOUP 开发指南：

　　如何使用 JSOUP

　　JSOUP 的使用非常简单。首先，我们需要下载JSOUP的jar包。我在这里使用 jsoup-1.7.3.jar。网上也有更多的地方可以下载。更多，jar包这里就不分享了。

　　好的，下载后将jar包复制到我们项目的libs目录下。下面是一个简单的例子来介绍如何使用它：

　　代码片段：

　　Document doc;

try {

doc = Jsoup

.connect(final_url)

.header("User-Agent",

　　 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2")

.get();

itemid = doc.getElementById("dsr-userid").val();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

　　首先，定义一个 Document 对象。 DOM（Document Object Model）是前端中一个比较重要的概念。有兴趣的朋友可以了解一下，然后通过jsoup读取网页的源码内容，其中final_url是代表你需要访问的URL。

　　getElementById("dsr-userid").val()

　　这行代码这部分是javascript中的语法，意思是获取id名为“dsr-userid”的控件的值

　　如上图，itemid的值为92688455。

　　好的，通过这样一个例子，实现了一个简单的jsoup操作。更多方法，需要参考上面提供的帮助文档来完成！！！

0

2022-02-22

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册