js 抓取网页内容( 这是17K的一个小说章节,内容是通过JS加载的 )

优采云 发布时间: 2021-10-06 12:02

  js 抓取网页内容(

这是17K的一个小说章节,内容是通过JS加载的

)

  

http://www.17k.com/chapter/76839/8810097.html

  这是17世纪小说的一章。内容是通过JS加载的。当我们使用httpclient获取它时,我们无法获取章节的具体内容,因为我们得到的是原创页面

  使用htmlunit模拟浏览器以获取执行的HTML页面,然后您可以获取所需的特定内容^_^

  

public class HtmlUnitTest {

public static void main(String[] args) throws Exception {

// 新建一个WebClient对象,此对象相当于浏览器

final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);

// 构造一个URL

URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");

// 通过getPage()方法,返回相应的页面

HtmlPage page = (HtmlPage) webClient.getPage(url);

System.out.println(page.getHtmlElementById("chapterContent").asText());

}

}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线