htmlunit抓取动态网页(这是视频怎么广告投放合js引擎来解决这个问题,怎么办 )

优采云 发布时间: 2022-04-12 22:35

  htmlunit抓取动态网页(这是视频怎么广告投放合js引擎来解决这个问题,怎么办

)

  最近在写爬虫的时候,使用httpclient爬取一些网页出现了一些问题,即检索到的内容中含有大量的加密文本(通过javascript脚本),无法获取真实内容获得(即用浏览器打开网页)渲染的内容)。所以一般需要搭配短视频和js引擎来解决这个问题。经过搜索,我发现工具 htmlunit 可以提供帮助。在了解和使用的过程中,我发现这是一个非常强大的开源工具。虽然名气不如httpclient,但实力不容小觑。少八卦。可以从这里下载:/htmlunit/files/htmlunit/2.15/

  String url="http://outofmemory.cn/";//想采集的网址

String refer=&quot诚信通托管推广;http://open-open.com/";

URL link=new URL(url);

WebClient wc=new WebClient();

WebRequest request=new WebRequest(link);

request.setCharset("UTF-8");

request.setProxyHost("120.120.120.x");

request.setProxyPort(8080);

request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段

////设置请求报文头里的User-Agent字段

request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。

//其他报文头字段可以根据需要添加

wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理

wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的

wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。

wc.getOptions().setThrowExceptionOnFailingStatusCode(false);

wc.getOptions().setThrowExceptionOnScriptError(false);

wc.getOptions().setTimeout(10000);

//设置cookie。如果你有cookie,可以在这里设置

Set cookies=null;

Iterator i = cookies.iterator();

while (i.hasNext())

{

wc.getCookieManager().addCookie(i.next());

}

//准备工作已经做好了

HtmlPage page=null;

page = wc.getPage(request);

if(page==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

String content=page.asText();//网页内容保存在content里

if(content==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

//搞定了

CookieManager CM = wc.getCookieManager(); //WC = Your WebClients name

Set cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线