js抓取网页内容(不时之需:我的理解)

优采云 发布时间: 2022-02-27 00:36

  js抓取网页内容(不时之需:我的理解)

  phantomjs:我的理解是它是一个不显示的浏览器,也就是说它基本上可以做浏览器能做的任何事情,只是它不能显示页面的内容。所以,最近因为实验需要,要爬一些电商的图片,但是是AJAX生成的,爬HTML的简单方法不行,o(╯□╰)o,所以经过一些帮助 ,; 了解了PHANTOMJS,由于网上没有找到太多的例子,只好自己总结一下,以备不时之需。另外,直接看官网文档会有很大的收获~顺便锻炼一下英语o(╯□╰)o。这是一个实现的栗子:

  下载并解压phantom到D盘,目录下有一个phantomjs.exe文件(win7)这个WebKit可以通过js文件调用来达到想要的目的:比如生成网页快照。我的什么想做的就是爬取AJAX页面上的图片,先看js文件:命名为s.js

  [javascript]

  

  在 CODE 上查看代码片段

  

  派生到我的代码片

  system = require('system') //传递一些需要的参数给js文件

address = system.args[1];//获得命令行第二个参数 ,也就是指定要加载的页面地址,接下来会用到

var page = require('webpage').create();

var url = address;

page.open(url, function (status) {

if (status !== 'success') {

console.log('Unable to post!');

} else {

var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式,选择合适的编码格式很重要,不然你抓取下来的页面会乱码o(╯□╰)o,给出的几个编码格式是官网上的例子,根据具体需要自己去调整。

for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦

phantom.outputEncoding = encodings[i];

console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容

}

}

phantom.exit();

});

  下一步是编写java类:

  [爪哇]

  

  在 CODE 上查看代码片段

  

  派生到我的代码片

  package com.mvc.rest;

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

public class GetAjaxHtml {

public static String getAjaxContent(String url) throws Exception {

Runtime rt = Runtime.getRuntime();

Process p = rt.exec("D:/tools/phantomjs/phantomjs.exe D:/tools/phantomjs/examples/s.js " + url);

InputStream is = p.getInputStream();

BufferedReader br = new BufferedReader(new InputStreamReader(is));

StringBuffer sbf = new StringBuffer();

String tmp = "";

while((tmp=br.readLine())!=null) {

sbf.append(tmp + "\n");

}

return sbf.toString();

}

public static void main(String[] args) throws Exception {

long start = System.currentTimeMillis();

String result = getAjaxContent("http://114.111.162.220:8093/404Web/");

System.out.println(result);

long end = System.currentTimeMillis();

System.out.println("===============耗时:" + (end - start) + "===============");

}

}

  

  至此,你就得到了需要的AJAX完整页面的代码串,接下来就可以为所欲为。

  是最终的解决方案

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线