js抓取网页内容(JS有一个request模块，可以很方便的抓取网页内容。 )

优采云发布时间: 2021-09-10 18:14

　　js抓取网页内容(JS有一个request模块，可以很方便的抓取网页内容。

)

　　Node.JS 有一个请求模块，可以轻松抓取网页内容。最简单的例子：

　　var request = require('request');

request('http://www.google.com', function (error, response, body) {

if (!error && response.statusCode == 200) {

console.log(body);

}

})

　　从上面的例子可以看出，用request发起http请求很简单，但是唯一的问题是request模块第三方依赖比较多，导致这个模块很大，占用数兆空间。

　　其实用的node.js原生http模块可以轻松写出类似的请求函数，只要几十行就够了：

　　var http = require('http')

var url = require('url')

var request = function(reqUrl, data, cb, headers) {

var dataType = typeof data

if (dataType == 'function') {

headers = cb

cb = data

rawData = null

} else if (dataType == 'object') {

rawData = JSON.stringify(data)

} else {

rawData = data

}

var urlObj = url.parse(reqUrl)

var options = {

hostname : urlObj.hostname

, port : urlObj.port

, path : urlObj.pathname

, method : rawData ? 'post' : 'get'

}

headers && (options.headers = headers)

var req = http.request(options, function(res) {

var receives = []

if (res.statusCode !== 200) {

cb && cb(new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl))

return

}

res.on('data', function(chunk) {

receives.push(chunk)

})

res.on('end', function() {

var resData = Buffer.concat(receives).toString()

try {

resData = JSON.parse(resData)

} catch (e) { }

cb && cb(null, res, resData)

})

req.on('error', function(e) {

cb && cb(e)

})

rawData && req.write(rawData)

req.end()

}

module.exports = request

　　使用的接口与请求模块相同。比如我们抓取新浪新闻首页的内容

　　其次，在爬取时还支持额外的头认证信息比如cookies，比如

　　request('http://news.sina.com.cn', function(err, res, data) {

console.log('get with cookie', data)

}, { cookie: '_sessionid=1234567890' })

　　支持 POST

　　request('http://news.sina.com.cn', { postdata: 'json' }, function(err, res, data) {

console.log('get with cookie', data)

}, { cookie: '_sessionid=1234567890' })

0

2021-09-10

js抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js抓取网页内容(JS有一个request模块，可以很方便的抓取网页内容。 )

0 个评论

发起人

AI时代内容工厂

js抓取网页内容(JS有一个request模块，可以很方便的抓取网页内容。 )

0 个评论

发起人

相关问题