js 抓取网页内容( 这是17K的一个小说章节,内容是通过JS加载的 )
优采云 发布时间: 2021-10-06 12:02js 抓取网页内容(
这是17K的一个小说章节,内容是通过JS加载的
)
http://www.17k.com/chapter/76839/8810097.html
这是17世纪小说的一章。内容是通过JS加载的。当我们使用httpclient获取它时,我们无法获取章节的具体内容,因为我们得到的是原创页面
使用htmlunit模拟浏览器以获取执行的HTML页面,然后您可以获取所需的特定内容^_^
public class HtmlUnitTest {
public static void main(String[] args) throws Exception {
// 新建一个WebClient对象,此对象相当于浏览器
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
// 构造一个URL
URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");
// 通过getPage()方法,返回相应的页面
HtmlPage page = (HtmlPage) webClient.getPage(url);
System.out.println(page.getHtmlElementById("chapterContent").asText());
}
}