nodejs抓取动态网页( Splider.js文件入口是splider方法，首先根据传入方法)

优采云发布时间: 2021-11-01 17:12

　　nodejs抓取动态网页(

Splider.js文件入口是splider方法，首先根据传入方法)

const cheerio = require('cheerio');

const httpHelper = require('./httpHelper');

function getQBJok(htmlStr){

let $ = cheerio.load(htmlStr);

let jokList = $('#content-left').children('div');

let rst = [];

jokList.each((i, item)=>{

let node = $(item);

let titleNode = node.find('h2');

let title = titleNode ? titleNode.text().trim() : '匿名用户';

let content = node.find('.content span').text().trim();

let likeNumber = node.find('i[class=number]').text().trim();

rst.push({

title : title,

content : content,

likeNumber : likeNumber

});

return rst;

}

async function splider(index = 1){

let url = `https://www.qiushibaike.com/8hr/page/${index}/`;

let htmlStr = await httpHelper.getHtml(url);

let rst = getQBJok(htmlStr);

return rst;

}

splider(1);

　　在获取尴尬百科网页的信息时，首先在浏览器中分析源代码，定位到你需要的标签，然后提取标签的文本或属性值，从而完成对网页的分析。

　　Splider.js 文件的入口是spliter 方法。首先根据传入的方法的index构造尴尬百科的url，然后获取该url的网页源码，最后将获取的源码传递给getQBJok方法进行分析。本文仅分析各文字笑话的作者、内容、喜好。

　　直接运行Spliter.js文件，抓取第一页的笑话信息。然后你可以改变spliter方法的参数来抓取不同页面的信息。

　　在上面已有代码的基础上，使用koa和vue2.0构建一个浏览文本的页面，效果如下：

　　源码已经上传到github。下载链接： ;

　　项目依赖节点 v7.6.0 及以上。首先，从 Github 克隆整个项目。

git clone https://github.com/StartAction/SpliderQB.git

　　克隆后，进入项目目录，运行以下命令。

node app.js

　　5. 总结

　　通过实现完整的爬虫功能，加深了对Node的理解，实现的部分语言使用了es6语法，从而加快了es6语法的学习进度。另外，在这个实现中，遇到了Node的异步控制的知识。本文使用了 async 和 await 关键字，这也是我的最爱。但是，在 Node 中，有多种方式可以实现异步控制。关于具体的方法和原则，有时间我再总结一下。

0

2021-11-01

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页( Splider.js文件入口是splider方法，首先根据传入方法)

0 个评论

发起人

AI时代内容工厂

nodejs抓取动态网页( Splider.js文件入口是splider方法，首先根据传入方法)

0 个评论

发起人

相关问题