网页抓取数据( PHPNodejs获取网页内容绑定data事件,获取到的数据会分几次)

优采云 发布时间: 2022-02-15 22:10

  网页抓取数据(

PHPNodejs获取网页内容绑定data事件,获取到的数据会分几次)

  node.js对网页内容中有特殊内容的js文件进行爬取分析

  更新时间:2015-11-17 10:40:01 作者:平凡先生

  nodejs获取网页内容并绑定data事件,获取到的数据会分几次。如果要匹配全局内容,需要等待请求结束,在end事件中操作累积的全局数据。本文介绍节点。js对网页内容中特殊内容的js文件进行爬取分析,需要的朋友请参考

  nodejs获取网页内容并绑定data事件,获取到的数据会分几次对应。如果要匹配全局内容,需要等待请求结束,在end事件中操作累积的全局数据!

  举个例子,如果你想找出页面上有没有,话不多说,直接放代码:

  //引入模块

var http = require("http"),

fs = require('fs'),

url = require('url');

//写入文件,把结果写入不同的文件

var writeRes = function(p, r) {

fs.appendFile(p , r, function(err) {

if(err)

console.log(err);

else

console.log(r);

});

},

//发请求,并验证内容,把结果写入文件

postHttp = function(arr, num) {

console.log('第'+num+"条!")

var a = arr[num].split(" - ");

if(!a[0] || !a[1]) {

return;

}

var address = url.parse(a[1]),

options = {

host : address.host,

path: address.path,

hostname : address.hostname,

method: 'GET',

headers: {

'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'

}

}

var req = http.request(options, function(res) {

if (res.statusCode == 200) {

res.setEncoding('UTF-8');

var data = '';

res.on('data', function (rd) {

data += rd;

});

res.on('end', function(q) {

if(!~data.indexOf("www.baidu.com")) {

return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');

} else {

return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");

}

})

} else {

writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');

}

});

req.on('error', function(e) {

writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');

})

req.end();

},

//读取文件,获取需要抓取的页面

openFile = function(path, coding) {

fs.readFile(path, coding, function(err, data) {

var res = data.split("\n");

for (var i = 0, rl = res.length; i < rl; i++) {

if(!res[i])

continue;

postHttp(res, i);

};

})

};

openFile('./sites.log', 'utf-8');

  上面的代码大家都能看懂。欢迎有不清楚的朋友给我留言。具体要看大家的应用实践了。

  让我们介绍一下 Nodejs 的网页抓取能力。

  第一个 PHP。先说优点:网上一抓一大堆HTML爬取和解析的框架,各种工具就可以直接使用,更省心。缺点:首先,速度/效率是个问题。下载电影海报时,由于crontab定时执行,没有优化,打开的php进程太多,直接爆内存。然后语法也很拖沓。关键字和符号太多,不够简洁。给人一种没有经过精心设计的感觉,写起来很麻烦。

  节点.js。优点是效率,效率或效率。因为网络是异步的,所以基本上和数百个并发进程一样强大,而且内存和CPU使用率都很小。如果没有对抓取的数据进行复杂的处理,那么系统瓶颈基本上就是带宽和写入MySQL等数据库的I/O速度。当然,优势的反面也是劣势。异步网络意味着您需要回调。这时候如果业务需求是线性的,比如必须等上一页爬完,拿到数据后才能爬到下一页,甚至更多的Layer依赖,那么就会出现可怕的多图层回调!基本上这个时候,代码结构和逻辑都会乱七八糟。当然,

  最后,让我们谈谈Python。如果你对效率没有极端要求,那么推荐Python!首先,Python 的语法非常简洁,同样的语句可以省去很多键盘上的打字。那么,Python非常适合数据处理,比如函数参数的打包解包,列表推导,矩阵处理,非常方便。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线