htmlunit抓取动态网页( JSoup依赖：2、使用模拟浏览器方式获取动态页面使用)

优采云发布时间: 2021-11-15 12:12

　　htmlunit抓取动态网页(

JSoup依赖：2、使用模拟浏览器方式获取动态页面使用)

org.apache.httpcomponents httpclient 4.5.2

　　JSoup 取决于：

org.jsoup jsoup 1.10.3

[color=red] 此处需要特别强调，对于很多网站，对爬虫都有一定的防范，因此在获取页面时，必须要补齐浏览器信息，否则很容易会导致被封IP！ [/color]

　　2、使用模拟浏览器方式获取动态页面

　　使用模拟浏览器真的很无奈，因为这种方法确实很慢，但是对于异步加载内容的网页来说特别有效。只有在发现无法直接通过Http拉取页面获取元素值时，才能使用此方法。

　　HtmlUnit 获取网页：

/** * 通过模拟浏览器的方式下载完整页面。 * * @param url * @return * @throws FailingHttpStatusCodeException * @throws IOException */ public static String downloadHtml(String url, int timeout) throws FailingHttpStatusCodeException, IOException { try (final WebClient webClient = new WebClient(BrowserVersion.CHROME)) { webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setCssEnabled(false); webClient.getOptions().setRedirectEnabled(true); webClient.getOptions().setThrowExceptionOnScriptError(false); webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); webClient .setAjaxController(new NicelyResynchronizingAjaxController()); webClient.getOptions().setTimeout(timeout); WebRequest webRequest = new WebRequest(new URL(url)); webRequest.setHttpMethod(HttpMethod.GET); final HtmlPage page = webClient.getPage(webRequest); webClient.waitForBackgroundJavaScriptStartingBefore(500); webClient.waitForBackgroundJavaScript(20000); final String pageAsXml = page.asXml(); return pageAsXml; } }

　　HtmlUnit 取决于：

net.sourceforge.htmlunit htmlunit 2.30

　　常见问题二：如何避免IP被封

　　处理方法比较简单，就是不使用并发，或者长时间连续抓取网站的内容。爬行时最好保持一定的时间间隔。根据我爬不同网站的经验，每3-5秒获取一个网页是最安全的。有些网站的IP一旦被封，可能需要一周左右的时间才能解锁，所以对于有固定外网IP的用户来说，在进行*敏*感*词*爬取之前一定要注意这个限制。

　　以下爬取代码供参考：

/* * (non-Javadoc) * * @see * com.hna.tech.spider.service.SpiderService#setPageArticleDetail(java.lang * .String) */ public List setPageArticleDetail( List pageList) throws IOException, InterruptedException { for (Map item : pageList) { [color=red] // 最小延迟3秒，少于3秒将可能被封IP Thread.sleep(3000); [/color] String articleUrl = item.get(KEY_LINK); Document doc = getArticleDocument(articleUrl); String articleHtml = getArticleContentHtml(doc); item.put(KEY_CONTENT_HTML, articleHtml); String articleContent = getArticleContent(doc); item.put(KEY_CONTENT, articleContent); } return pageList; }

　　那么如何提高爬取效率呢？一般网站无论是DDOS攻击还是恶意网页扫描都会根据Session和IP加锁，所以问题很简单。请求通过多个线程发起，保证每个Session请求的时间间隔。另外，不要太并发，只要不对网站造成压力，IP一般不会被阻塞。

　　常见问题三：元素选择问题

　　获取元素的方式有很多种，可以通过ID、CSS样式、元素类型（比如

　　) 等根据个人喜好，通常可以获取元素的内容，例如文章标题，文章正文等。

　　下面分享我个人使用JSoup获取页面元素内容的一些经验。

　　1、分步获取

　　即先获取顶级节点，比如文章的内容的顶级节点，然后先获取第一个顶级节点，再通过获取低级节点的内容JSoup，避免在有多个节点时获取访问的内容超出预期。

　　2、CSS 样式的选择

　　当有多个类样式时，例如：

　　...

　　, 使用JSoup选择：

doc.select("div.css1.css2")

　　使用点将它们连接在一起。

0

2021-11-15

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit抓取动态网页( JSoup依赖：2、使用模拟浏览器方式获取动态页面使用)

0 个评论

发起人

AI时代内容工厂

htmlunit抓取动态网页( JSoup依赖：2、使用模拟浏览器方式获取动态页面使用)

0 个评论

发起人

相关问题