js抓取网页内容(不时之需:我的理解不时之需:)

优采云 发布时间: 2021-10-18 15:03

  js抓取网页内容(不时之需:我的理解不时之需:)

  phantomjs:我的理解是它是一个非显示浏览器,也就是说除了不能显示页面的内容外,基本上可以做浏览器能做的所有任务。所以,最近由于实验需要,不得不从某电商公司爬取一些图片,但是是AJAX生成的。简单的爬取HTML的方法行不通,o(╯□╰)o,于是求助后,;学习了PHANTOMJS,由于网上没有找到太多的例子,只好自己总结一下,以备不时之需。另外,直接看官网的文档会很有收获的~顺便锻炼一下你的英文o(╯□╰)o。我们拿一个栗子来详细实现一下:

  下载并解压phantom到D盘,里面有一个phantomjs.exe文件(win7)通过js文件调用这个WebKit,达到预期目的:比如生成网页快照。我想做什么就是爬上AJAX页面上的图片,先看js文件:将其命名为s.js

  [javascript]查看原件

  在 CODE 上查看代码片段

  源自我的代码片段

  system = require('system') //传递一些需要的参数给js文件 address = system.args[1];//获得命令行第二个参数 ,也就是指定要加载的页面地址,接下来会用到 var page = require('webpage').create(); var url = address; page.open(url, function (status) { if (status !== 'success') { console.log('Unable to post!'); } else { var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式,选择合适的编码格式很重要,不然你抓取下来的页面会乱码o(╯□╰)o,给出的几个编码格式是官网上的例子,根据具体需要自己去调整。 for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦 phantom.outputEncoding = encodings[i]; console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容 } } phantom.exit(); });

  接下来就是java类的准备工作:

  [java]查看原件

  在 CODE 上查看代码片段

  源自我的代码片段

  package com.mvc.rest; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; public class GetAjaxHtml { public static String getAjaxContent(String url) throws Exception { Runtime rt = Runtime.getRuntime(); Process p = rt.exec("D:/tools/phantomjs/phantomjs.exe D:/tools/phantomjs/examples/s.js " + url); InputStream is = p.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is)); StringBuffer sbf = new StringBuffer(); String tmp = ""; while((tmp=br.readLine())!=null) { sbf.append(tmp + "\n"); } return sbf.toString(); } public static void main(String[] args) throws Exception { long start = System.currentTimeMillis(); String result = getAjaxContent("http://114.111.162.220:8093/404Web/"); System.out.println(result); long end = System.currentTimeMillis(); System.out.println("===============耗时:" + (end - start) + "==============="); } }

  至此,你已经有了你需要的完整AJAX页面的代码串,然后就可以为所欲为了

  这是最终的解决方案

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线