抓取jsp网页源代码(java项目有时候我们需要别人网页上的数据(组图))

优采云发布时间: 2021-09-15 14:09

　　Java项目有时我们需要别人网页上的数据。我们该怎么办？我们可以使用第三方shelf包jsou来实现jsoup的中文文档。我们如何具体实施它？那就一步一步跟着我

　　第一件事是准备第三方机架包，下载地址，以及在获得jar后做什么？别担心，我们慢慢来

　　复制jsoup。Jar到项目的Webroot-&gt；WEB-INF-&gt；库文件夹

　　那么我们需要介绍一下这个架子包

　　右键单击项目并选择生成路径-&gt；配置生成路径-&gt；图书馆-&gt；添加罐子-&gt；在刚刚放入的目录下找到jsoup

　　准备工作已经完成，下一步是我们的编码部分。来吧

　　因为它是为了抓取网页的内容，所以必须捕获网站的地址。这里，以我的一个博客为标准

　　这是我文章文章的截图，例如，我想捕捉Android的零碎知识点，之后我会一直更新这一段

　　//获取整个网站的根节点，即从HTML的开始到结束。这里，get方法和post方法是相同的

　　Document Document=Jsoup.connect（url.get（）

　　//输出它，我们将看到整个字符串，如下所示

　　系统输出打印项次（文件）

　　这里只是截图的一部分

　　我们将看到我们需要掌握的文本被包装在一个标签中，另一个重要的东西是id=CB_uu;post_uuuuuutitle_uuuurl，阅读过该文档的人应该知道在jsoup中有一个getelementbyid方法，它实际上与在JS中获取元素相同。在这里我们可以使用它

　　Getelementbyid方法来获取a标记。拿到之后，我们可以把里面的内容拿出来，对吗？Jsou还为我们提供了一个text（）方法，用于获取标记的文本内容。请记住，它是以文本而不是HTML的形式出现的

　　如下所示，我们使用getelementbyid方法获取所需的a标记

　　元素a=document.getElementById（“cb_post_title_url”）

　　此时，我们的输出如下

　　System.out.println（a.text（））

　　我们得到我们想要的了吗？当然，这只是jsoup的最简单捕获。如果需要以列表的形式获取，也可以获取jsoup。我们都知道ID是唯一的，不能重复，所以我们只能通过ID获得一行标签

　　但是对于一般列表，比如ulli，我们可以使用getelementsbytag方法通过标记名获取它们，然后通过for循环逐个获取它们。接下来，附上代码

　　package com.luhan.text;

import java.io.IOException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

public class Text {

private static final String url = "http://www.cnblogs.com/luhan/p/5953387.html";

public static void main(String[] args) {

try {

//获取整个网站的根节点，也就是html开头部分一直到结束

Document document = Jsoup.connect(url).post();

Element a = document.getElementById("cb_post_title_url");

System.out.println(a.text());

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

　　我不会逐一介绍jsoup中的方法。如果您不明白，可以阅读jsoup的中文文档。让我谈谈更重要的方法

　　Jsoup.connect（url.post（）；获取网页的以下目录

　　Getelementbyid是通过ID获取的

　　Getelementsbyclass是通过类获取的

　　Getelementsbytag是通过标记名获得的

　　Text（）获取标记的文本，再次强调文本

　　HTML（）获取标记中的所有字符串，包括HTML标记

　　Attrib（attributekey）获取属性中的值。参数是属性名

　　注意

　　jsoup获得的网页根目录可能与源代码不同，因此需要小心

　　此时，jsoup抓取的网页数据结束了。不太好。欢迎提供更多指导。我使用Java控制台，JavaWeb和Android的用法是一样的。首先，导入框架，然后调用OK

　　方法

0

2021-09-15

抓取jsp网页源代码

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取jsp网页源代码(java项目有时候我们需要别人网页上的数据(组图))

0 个评论

发起人