js抓取网页内容(JS有一个request模块,可以很方便的抓取网页内容。 )
优采云 发布时间: 2021-09-10 18:14js抓取网页内容(JS有一个request模块,可以很方便的抓取网页内容。
)
Node.JS 有一个请求模块,可以轻松抓取网页内容。最简单的例子:
var request = require('request');
request('http://www.google.com', function (error, response, body) {
if (!error && response.statusCode == 200) {
console.log(body);
}
})
从上面的例子可以看出,用request发起http请求很简单,但是唯一的问题是request模块第三方依赖比较多,导致这个模块很大,占用数兆空间。
其实用的node.js原生http模块可以轻松写出类似的请求函数,只要几十行就够了:
var http = require('http')
var url = require('url')
var request = function(reqUrl, data, cb, headers) {
var dataType = typeof data
if (dataType == 'function') {
headers = cb
cb = data
rawData = null
} else if (dataType == 'object') {
rawData = JSON.stringify(data)
} else {
rawData = data
}
var urlObj = url.parse(reqUrl)
var options = {
hostname : urlObj.hostname
, port : urlObj.port
, path : urlObj.pathname
, method : rawData ? 'post' : 'get'
}
headers && (options.headers = headers)
var req = http.request(options, function(res) {
var receives = []
if (res.statusCode !== 200) {
cb && cb(new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl))
return
}
res.on('data', function(chunk) {
receives.push(chunk)
})
res.on('end', function() {
var resData = Buffer.concat(receives).toString()
try {
resData = JSON.parse(resData)
} catch (e) { }
cb && cb(null, res, resData)
})
})
req.on('error', function(e) {
cb && cb(e)
})
rawData && req.write(rawData)
req.end()
}
module.exports = request
使用的接口与请求模块相同。比如我们抓取新浪新闻首页的内容
其次,在爬取时还支持额外的头认证信息比如cookies,比如
request('http://news.sina.com.cn', function(err, res, data) {
console.log('get with cookie', data)
}, { cookie: '_sessionid=1234567890' })
支持 POST
request('http://news.sina.com.cn', { postdata: 'json' }, function(err, res, data) {
console.log('get with cookie', data)
}, { cookie: '_sessionid=1234567890' })