在线抓取网页(如何通过Java获取HTML表格内容?主题的网址介绍)
优采云 发布时间: 2021-12-28 18:01在线抓取网页(如何通过Java获取HTML表格内容?主题的网址介绍)
问题:如何通过Java获取HTML表格内容?
要求:它必须是在线页面,而不是本地文件。如何从完整的网页(仅限 HTML)在线获取 HTML 表格内容?
我要提取的第一个主题的 URL:
https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3
我在第 3 页尝试了以下代码
String url_page3 = "https://discussions.apple.com/community/ipad/using_ipad?view=discussions#/?page=3";
String key = "td.jive-table-cell-subject > a[href]";
Document doc = Jsoup.connect(url_page3).maxBodySize(0).timeout(0).get();
Element e = doc.select(key).first();
System.out.println(e.attr("abs:href");
它返回到第 1 页的第一个主题以获取第一个主题(即使我将连接的 URL 更改为第 4 页、第 5 页,...)
但为什么会发生这种情况?我还有其他方法可以尝试吗?
来源
2014-02-09马克