js 爬虫抓取网页数据(借助mysql模块保存数据(假设数据库)的基本流程和流程)

优采云 发布时间: 2021-10-15 18:09

  js 爬虫抓取网页数据(借助mysql模块保存数据(假设数据库)的基本流程和流程)

  在node.js中,有了cheerio模块和request模块,抓取特定URL页面的数据非常方便。

  一个简单的如下

  var request = require('request');

var cheerio = require('cheerio');

request(url,function(err,res){

if(err) return console.log(err);

var $ = cheerio.load(res.body.toString());

//解析页面内容

});

  有了基本的过程,现在试着找一个网址(url)。以博客园的搜索页面为例。

  通过搜索 关键词 node.js

  

  获取以下网址:

  点击第二页,网址如下:

  分析URL,发现w=? 搜索到的关键词是p=吗?是页码。

  使用请求模块请求 URL

  var request = require('request');

var cheerio = require('cheerio');

var key = 'node.js', page = 1;

var url = 'http://zzk.cnblogs.com/s?t=b&w='+ key +'&p='+ page;

request(url, function(err, res) {

if (err) return console.log(err);

var $ = cheerio.load(res.body.toString());

var arr = [];

//内容解析

});

  既然有了 URL,接下来分析 URL 对应的页面内容。

  

  页面还是很规律的。

  标题摘要 作者发布时间 推荐 评论数 浏览次数 文章 链接

  借助浏览器开发工具

  

  发现

  ...

  对应每篇文章文章

  点击每一项,有以下内容

  

  收录 文章 标题和 文章 URL 地址

  收录作者

  包括发布时间

  收录观看次数

  使用cheerio模块解析文章并抓取特定内容

  

  

  var request = require('request');

var cheerio = require('cheerio');

var key = 'node.js', page = 1;

var url = 'http://zzk.cnblogs.com/s?t=b&w='+ key +'&p='+ page;

request(url, function(err, res) {

if (err) return console.log(err);

var $ = cheerio.load(res.body.toString());

var arr = [];

//内容解析

$('.searchItem').each(function() {

var title = $(this).find('.searchItemTitle');

var author = $(this).find('.searchItemInfo-userName a');

var time = $(this).find('.searchItemInfo-publishDate');

var view = $(this).find('.searchItemInfo-views');

var info = {

title: $(title).find('a').text(),

href: $(title).find('a').attr('href'),

author: $(author).text(),

time: $(time).text(),

view: $(view).text().replace(/[^0-9]/ig, '')

};

arr.push(info);

//打印

console.log('============================= 输出开始 =============================');

console.log(info);

console.log('============================= 输出结束 =============================');

});

});

  查看代码

  可以运行一下,看看数据是否正常捕获。

  

  现在有数据数据,可以保存到数据库中。这里以mysql为例,使用mongodb更方便。

  借助mysql模块保存数据(假设数据库名为test,表为blog)。

  

  

  

  var request = require('request');

var cheerio = require('cheerio');

var mysql = require('mysql');

var db = mysql.createConnection({

host: '127.0.0.1',

user: 'root',

password: '123456',

database: 'test'

});

db.connect();

var key = 'node.js', page = 1;

var url = 'http://zzk.cnblogs.com/s?t=b&w='+ key +'&p='+ page;

request(url, function(err, res) {

if (err) return console.log(err);

var $ = cheerio.load(res.body.toString());

var arr = [];

//内容解析

$('.searchItem').each(function() {

var title = $(this).find('.searchItemTitle');

var author = $(this).find('.searchItemInfo-userName a');

var time = $(this).find('.searchItemInfo-publishDate');

var view = $(this).find('.searchItemInfo-views');

var info = {

title: $(title).find('a').text(),

href: $(title).find('a').attr('href'),

author: $(author).text(),

time: $(time).text(),

view: $(view).text().replace(/[^0-9]/ig, '')

};

arr.push(info);

//打印

console.log('============================= 输出开始 =============================');

console.log(info);

console.log('============================= 输出结束 =============================');

//保存数据

db.query('insert into blog set ?', info, function(err,result){

if (err) throw err;

if (!!result) {

console.log('插入成功');

console.log(result.insertId);

} else {

console.log('插入失败');

}

});

});

});

  查看代码

  运行它以查看数据是否已保存到数据库中。

  

  现在有一个基本的爬取和保存。但是只爬取一次,只能爬取关键词为node.js页码1的URL页面。

  将关键词改为javascript,页码为1,清空博客表,再次运行看看表中是否可以保存javascript相关的数据。

  

  现在去博客园搜索javascript,看看搜索结果是否与表格中的内容相对应。哈哈,别看,绝对可以对应~~

  只能抓取一个页面的内容,这绝对是不够的。能够自动抓取其他页面的内容会更好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线