nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据,api及用法跟jquery)
优采云 发布时间: 2022-03-29 10:18nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据,api及用法跟jquery)
切里奥
抓取页面后,操作dom提取页面中的数据,api和用法类似jquery
表示
用于启动一个简单的服务,在浏览器中查看爬虫爬取的数据
玉
页面模板引擎
使用方法将仓库克隆到本地,然后安装相应模块并执行node app启动服务。打开浏览器输入localhost:3000查看效果分析。
整个爬虫其实很简单。主要功能是发送请求以采集数据,然后对其进行分析。当然,这一步分析不一定收录在爬虫中。您可以自己编写其他模块来分析和处理数据。使用superagent请求知乎接口获取具体数据,但是有些接口有限制,有些数据是通过服务端渲染直接显示在页面上的,不能直接通过知乎接口获取,所以需要从渲染的页面中抓取,所以需要使用cheerio模块进行dom操作,获取对应的dom结构然后获取值。这里需要注意的是,这种需要登录的网站请求可能有权限验证,
目录说明
主要步骤
登录和获取授权的过程有点繁琐,而且有验证码,所以只能通过快递做转发。有兴趣的可以直接看github代码和对应的注释。代码在此不详述。
演示测试效果
github地址
知乎 带登录功能的爬虫