nodejs抓取动态网页(下phantomjs,具体过程是怎么实现的呢？（一）)

优采云发布时间: 2022-03-21 22:19

　　最近在研究phantomjs，但只是第一次，谈不上深入研究。首先介绍一下phantomjs是什么。

　　官网上的介绍是：“PhantomJS 是一个可以用 JavaScript API 编写脚本的无头 WebKit。它对各种 Web 标准有快速和原生的支持：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。” 服务器端 JavaScript API。它完全支持没有浏览器支持的 Web，它速度快，原生支持各种 Web 标准：DOM 操作、CSS 选择器、JSON、Canvas 和 SVG。” PhantomJS 可用于页面自动化、Web 监控、网页截图和无接口测试。

　　本文结合nodejs，使用phantomjs网页截图功能，对多个URL进行批量截图操作，将图片上传到七牛服务器，批量获取图片下载地址，并保存在本地文件中。

　　下面开始说一下这个demo的具体流程是如何实现的。

　　一、安装

　　1、nodejs

　　nodejs的安装在之前的文章中已经提到过，这里不再赘述。详情请参考nodejs官网：；

　　2、幻影

　　关于phantomjs的安装，这里是windows环境下的安装方法：

　　首先去官网下载phantomjs压缩包，解压到本地磁盘。比如我电脑上解压后存储的地址是：D:\Program files\phantomjs-2.1.1；

　　二、配置环境变量。将解压后的phantomjs目录下bin目录的路径（比如我本地bin目录的位置是：D:\Program files\phantomjs-2.1.1\bin）添加到系统中变量路径变量中间；

　　然后，打开cmd，输入“phantomjs --version”命令查看phantomjs是否安装成功。如果出现版本号信息，则安装成功。如果报错，需要重启电脑。

　　结果如下所示：

　　二、设计理念

　　首先说一下写这个demo的初衷。因为我在工作中每次发邮件都需要用到一些截图，不想每次都手动拍多张，所以想用一个自动化的批处理工具来自动截图，不过这只是为了完成截图，使用的时候还是要上传图片。我还是觉得麻烦，所以想在截图完成后自动将这些图片上传到七牛服务器，然后从服务器获取图片下载地址，然后就可以直接使用图片下载地址了。好的。以下是具体的设计思路。

　　对于上图中的截图设备，具体程序流程为：

　　三、编码

　　1、模拟Echarts图表生成的工程代码和启动方法不再详述。请参考我在github上发布的源码：

　　2、截图

　　2.1、capture.js

　　主要使用phantomjs进行截图操作

　　 1 var page=require('webpage').create();//创建一个网页对象;

2 var system=require('system');

3 var address,fileName;

4 // page.viewportSize={width:1024,height:800};//设置窗口的大小为1024*800；

5 // page.clipRect={top:0,left:0,width:1024,height:800};//截取从{0,0}为起点的1024*800大小的图像;

6 // //禁止Javascript，允许图片载入;

7 // // 并将userAgent改为"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) PhantomJS/19.0";

8 // page.settings={

9 // javascriptEnabled: false,

10 // loadImages: true,

11 // userAgent: 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) PhantomJS/19.0'

12 // };

13

14 if (system.args.length === 1) {

15 console.log('Try to pass some args when invoking this script!');

16 phantom.exit(1);

17 }else{

18 //获取指令传递的参数,参数是以数组的形式传递的;

19 address=system.args[1];

20 fileName=system.args[2];

21 count=system.args[3];

22 max=system.args[4];

23 //打开一个网页；

24 page.open(address,function(status){

25 console.log(status);

26 if(status==='success'){

27 //成功后将页面存储为图片并放在指定的位置；

28 page.render('./pictures/'+fileName+'.png');

29 }

30 // page.close();//释放;

31 //退出；

32 phantom.exit();

33 });

34 }

　　2.2、phantom.js

　　Nodejs 启动一个新的子进程并发送 phantomjs 命令进行截图。截图成功后，发送图片上传命令上传图片：

　　 1 /**

2 * Created by Administrator on 2016/5/5.

3 */

4 var urls=["http://localhost:3000/","http://localhost:3000/table","http://www.baidu.com"];

5 var count=0;

6 var max=urls.length;

7 if(urls.length!=0){

8 capture(urls[0]);

9 }

10 //生成随机字符串作为图片名称;

11 function createRandomName(len){

12 len = len || 32;

13 /****默认去掉了容易混淆的字符oOLl,9gq,Vv,Uu,I1****/

14 var $chars = 'ABCDEFGHJKMNPQRSTWXYZabcdefhijkmnprstwxyz2345678';

15 var maxPos = $chars.length;

16 var pwd = '';

17 for (i = 0; i < len; i++) {

18 pwd += $chars.charAt(Math.floor(Math.random() * maxPos));

19 }

20 return pwd;

21 }

22 //开始执行截图命令;

23 function capture(url){

24 var randomPicName='test'+createRandomName(Math.random()*8);

25 console.log("获取的随机名称="+randomPicName);

26 var spawn=require('child_process').spawn;

27 var process=spawn('phantomjs',['capture.js',url,randomPicName,count,max],{cwd:'./routes/'});

28 process.stdout.setEncoding('utf8');

29

30 process.stdout.on("data",function(data){

31 console.log(data);

32 console.log("spawnSTDOUT:"+JSON.stringify(data));

33 var code=data.replace(/[\r\n]/g,"");

34 console.log(code);

35 if(code=='success'){

36 var execFile=require('child_process').execFile;

37 var filePath='./pictures/'+randomPicName+'.png';

38 var execProcess=execFile('node',['upload.js',filePath,randomPicName,count,JSON.stringify(urls)],{cwd:'./routes/'},

39 function(err,stdout,stderr){

40 console.log("execFileSTDOUT:", stdout);

41 console.log("execFileSTDERR:", stderr);

42 });

43 }

44 });

45 process.stderr.on('data',function(data){

46 console.log("stderr"+data);

47 });

48 process.on('close',function(code){

49 if (code == 1) {

50 console.log('child process异常结束。目标：' + url);

51 }

52 });

53 process.on('exit',function(code){

54 console.log('child process exited with code ' + code);

55 count++;

56 if(count!=urls.length){

57 capture(urls[count]);

58 }

59 });

60 }

　　2.3、上传.js

　　主要是将图片上传到七牛并获取图片的下载地址，并将结果存入本地txt文件：

　　 1 /**

2 * Created by Administrator on 2016/5/6.

3 */

4 var qiniu = require("qiniu");

5 var config=require('./config');

6 var argvs=process.argv.splice(2);

7 var fs=require("fs");

8 console.log(argvs);

9

10 filePath=argvs[0];

11 key=argvs[1]+'.png';

12 //count;

13 var count=parseInt(argvs[2]);

14 //urls;

15 var urls=JSON.parse(argvs[3]);

16 var max=urls.length;

17 console.log("get the arguments:"+filePath+"---"+key+"--"+count+"---"+max);

18 /**

19 * 第一步：初始化

20 * @type {string}

21 */

22 //需要填写你的 Access Key 和 Secret Key

23 qiniu.conf.ACCESS_KEY = config.qiniu.ACCESS_KEY;

24 qiniu.conf.SECRET_KEY = config.qiniu.SECRET_KEY;

25 //要上传的空间

26 bucket = config.qiniu.Bucket_Name;

27

28 /**

29 * 第二步：获取上传的token

30 * @param bucket

31 * @param key

32 */

33 //构建上传策略函数，设置回调的url以及需要回调给业务服务器的数据

34 function uptoken(bucket, key) {

35 var putPolicy = new qiniu.rs.PutPolicy(bucket+":"+key);

36 console.log("token= "+putPolicy.token());

37 return putPolicy.token();

38 }

39 //生成上传 Token

40 token = uptoken(bucket, key);

41 /**

42 * 第三步：上传图片

43 * @type {string}

44 */

45

46 //构造上传函数

47 function uploadFile(uptoken, key, localFile,count,max) {

48 var extra = new qiniu.io.PutExtra();

49 qiniu.io.putFile(uptoken, key, localFile, extra, function(err, ret) {

50 if(!err) {

51 console.log("上传成功-------------------");

52 // 上传成功，处理返回值

53 // console.log(ret.hash, ret.key, ret.persistentId);

54 //构建私有空间的链接

55 url = config.qiniu.Domain+ret.key;

56 var policy = new qiniu.rs.GetPolicy();

57 //生成下载链接url

58 var downloadUrl = policy.makeRequest(url);

59 //打印下载的url

60 console.log("downloadUrl= "+downloadUrl);

61 var date=new Date();

62 var dateString=date.toLocaleDateString();//日期;

63 var timeString=date.toLocaleTimeString();//时间;

64 var time=date.toLocaleDateString()+" "+date.toLocaleTimeString();

65 console.log(time);

66 var signalArray={

67 "编号":count+1,

68 "被截屏的路径地址":urls[count],

69 "上传七牛后的图片名称":key,

70 "下载地址":downloadUrl,

71 "截图时间":time

72 };

73 if(count==0){

74 // fs.appendFile(__dirname+'/downloadUrl.txt',"\r\n-----------------"+dateString+" "+timeString+"------------操作开始----------------------\r\n",function(err){

75 // if(err){console.log('fail')}

76 // });

77 fs.appendFileSync(__dirname+'/downloadUrl.txt',"\r\n-----------------"+dateString+" "+timeString+"------------操作开始----------------------\r\n",{encoding:'utf8'});

78 }

79 fs.appendFile(__dirname+'/downloadUrl.txt',JSON.stringify(signalArray)+'\r\n',function(err){

80 if(err){console.log("fail")}

81 });

82 // fs.appendFileSync(__dirname+'/downloadUrl.txt',JSON.stringify(signalArray)+'\r\n',{encoding:'utf8'});

83

84 // if((count+1)==max){

85 // fs.appendFile(__dirname+'/downloadUrl.txt',"\r\n-----------------"+dateString+" "+timeString+"------------操作结束----------------------\r\n",function(err){

86 // if(err){console.log('fail')}

87 // });

88 // fs.appendFileSync(__dirname+'/downloadUrl.txt',"\r\n-----------------"+dateString+" "+timeString+"------------操作结束----------------------\r\n\n",{encoding:'utf8'});

89 // }

90 } else {

91 // 上传失败，处理返回代码

92 console.log(err);

93 }

94 });

95 }

96 //调用uploadFile上传,并返回下载地址；

97 uploadFile(token, key, filePath,count,max);

　　2.4、执行：

　　首先， npm install 安装所需的包。二、直接输入“node routes/phantom.js”，回车，程序开始执行。我们来看看执行结果：

　　2.4.1、/图片：

　　这个目录下还有更多的图片文件，这些是phantomjs截图的图片；

　　2.4.2、七牛服务器

　　网页登录七牛后，在自己的bucket中可以看到已经添加了很多图片文件，说明我们已经上传成功了：

　　2.4.3、本地下载Url.txt文件

　　然后我们测试下载地址是否可以正确下载图片：

　　以上就是使用nodejs+phantomjs+七牛实现截图操作的完整方法，将截图上传到七牛，并将下载地址保存在本地磁盘。

　　PS：但是有一个问题，七牛的token是有有效期的，也就是说过了有效期，之前的url就不能用了。你可以重新上传一遍，或者直接在七牛上下载之前的图片。

　　如果需要源码，可以到我的github下载。下载地址为：

　　Phantomjs_pic 项目（生成echarts图表等）：；

　　phantomjsScreenCapture 项目（实现截图和上传图片）：；

　　ps：这次只是对phantomjs的一个简单应用。如果您有什么意见和建议，欢迎指出，谢谢！

0

2022-03-21

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页(下phantomjs,具体过程是怎么实现的呢？（一）)

0 个评论

发起人