nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据，api及用法跟jquery)

优采云发布时间: 2022-03-29 10:18

　　切里奥

　　抓取页面后，操作dom提取页面中的数据，api和用法类似jquery

　　表示

　　用于启动一个简单的服务，在浏览器中查看爬虫爬取的数据

　　玉

　　页面模板引擎

　　使用方法将仓库克隆到本地，然后安装相应模块并执行node app启动服务。打开浏览器输入localhost:3000查看效果分析。

　　整个爬虫其实很简单。主要功能是发送请求以采集数据，然后对其进行分析。当然，这一步分析不一定收录在爬虫中。您可以自己编写其他模块来分析和处理数据。使用superagent请求知乎接口获取具体数据，但是有些接口有限制，有些数据是通过服务端渲染直接显示在页面上的，不能直接通过知乎接口获取，所以需要从渲染的页面中抓取，所以需要使用cheerio模块进行dom操作，获取对应的dom结构然后获取值。这里需要注意的是，这种需要登录的网站请求可能有权限验证，

　　目录说明

　　主要步骤

　　登录和获取授权的过程有点繁琐，而且有验证码，所以只能通过快递做转发。有兴趣的可以直接看github代码和对应的注释。代码在此不详述。

　　演示测试效果

　　github地址

　　知乎带登录功能的爬虫

0

2022-03-29

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据，api及用法跟jquery)

0 个评论

发起人