js抓取网页内容(Nodejs对于网页抓取的能力首先要推荐用Python！！)

优采云发布时间: 2021-10-09 12:18

　　Nodejs获取绑定到data事件的web内容，获取到的数据会分多次。如果要匹配全局内容，需要等待请求结束，在end结束事件中对累积的全局数据进行操作！

　　比如想在页面上查找，就不多说了，直接放上代码：

//引入模块

var http = require("http"),

fs = require('fs'),

url = require('url');

//写入文件，把结果写入不同的文件

var writeRes = function(p, r) {

fs.appendFile(p , r, function(err) {

if(err)

console.log(err);

else

console.log(r);

});

},

//发请求，并验证内容，把结果写入文件

postHttp = function(arr, num) {

console.log('第'+num+"条！")

var a = arr[num].split(" - ");

if(!a[0] || !a[1]) {

return;

}

var address = url.parse(a[1]),

options = {

host : address.host,

path: address.path,

hostname : address.hostname,

method: 'GET',

headers: {

'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'

}

var req = http.request(options, function(res) {

if (res.statusCode == 200) {

res.setEncoding('UTF-8');

var data = '';

res.on('data', function (rd) {

data += rd;

});

res.on('end', function(q) {

if(!~data.indexOf("www.baidu.com")) {

return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');

} else {

return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");

}

})

} else {

writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');

}

});

req.on('error', function(e) {

writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');

})

req.end();

},

//读取文件，获取需要抓取的页面

openFile = function(path, coding) {

fs.readFile(path, coding, function(err, data) {

var res = data.split("\n");

for (var i = 0, rl = res.length; i < rl; i++) {

if(!res[i])

continue;

postHttp(res, i);

};

})

};

openFile('./sites.log', 'utf-8');

　　你可以理解上面的代码。如果您有任何问题，请给我留言。具体要看大家在实践中的应用。

　　下面给大家介绍一下Nodejs的网页抓取能力。

　　首先是PHP。先说优点：网上大量爬取解析html框架，各种工具都可以直接使用，比较省心。缺点：首先，速度/效率是个问题。有一次下载电影海报的时候，因为crontab定时执行，没有优化，打开的php进程太多，直接导致内存爆了。然后语法也很拖沓，各种关键词符号太多，不够简洁，给人一种没有精心设计的感觉，写起来很麻烦。

　　节点.js。优点是效率，效率还是效率。因为网络是异步的，所以基本上和并发数百个进程一样强大。内存和CPU使用量非常小。如果对捕获的数据没有进行复杂的计算和处理，那么系统就会成为瓶颈。基本上就是写入MySQL等数据库的带宽和I/O速度。当然，优点的反面也是缺点。异步网络意味着您需要回调。这时候，如果业务需求是线性的，比如必须要等上一页爬完才能拿到数据，下一页才能爬出来，甚至更多。层依赖，会有可怕的多层回调！基本上这个时候代码结构和逻辑就会乱了。当然，

　　最后，让我们谈谈Python。如果你对效率没有极端的要求，那么推荐Python！首先，Python 的语法非常简洁，同一个句子可以少打很多次。然后，Python非常适合数据处理，比如函数参数的打包和解包，列表分析，矩阵处理，非常方便。

　　免责声明：本文原创发表于php中文网。转载请注明出处。感谢您的尊重！如果您有任何疑问，请与我们联系

　　相关标签： node.js 抓取 nodejs 抓取网页

0

2021-10-09

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(Nodejs对于网页抓取的能力首先要推荐用Python！！)

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(Nodejs对于网页抓取的能力首先要推荐用Python！！)

0 个评论

发起人

相关问题