网页抓取数据百度百科(最近有个需求就是如何通过一个URL获取中的一些信息)

优采云 发布时间: 2022-02-22 16:06

  网页抓取数据百度百科(最近有个需求就是如何通过一个URL获取中的一些信息)

  最近有一个需求,就是如何通过URL获取网页源代码中的一些信息。网上查了一些方法,发现有个叫JSOUP的东西可以满足我们的需求。

  JSOUP简介

  百度百科的简单介绍:jsoup是一个Java HTML解析器,可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API,用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。

  具体可以百度,介绍的应该挺详细的。

  JSOUP 开发指南:

  如何使用 JSOUP

  JSOUP 的使用非常简单。首先,我们需要下载JSOUP的jar包。我在这里使用 jsoup-1.7.3.jar。网上也有更多的地方可以下载。更多,jar包这里就不分享了。

  好的,下载后将jar包复制到我们项目的libs目录下。下面是一个简单的例子来介绍如何使用它:

  代码片段:

  Document doc;

try {

doc = Jsoup

.connect(final_url)

.header("User-Agent",

   "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2")

.get();

itemid = doc.getElementById("dsr-userid").val();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

  首先,定义一个 Document 对象。 DOM(Document Object Model)是前端中一个比较重要的概念。有兴趣的朋友可以了解一下,然后通过jsoup读取网页的源码内容,其中final_url是代表你需要访问的URL。

  getElementById("dsr-userid").val()

  这行代码这部分是javascript中的语法,意思是获取id名为“dsr-userid”的控件的值

  

  如上图,itemid的值为92688455。

  好的,通过这样一个例子,实现了一个简单的jsoup操作。更多方法,需要参考上面提供的帮助文档来完成! ! !

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线