nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据,api及用法跟jquery)

优采云 发布时间: 2022-03-29 10:18

  nodejs抓取动态网页(cheerio抓取页面后操作来提取页面中的数据,api及用法跟jquery)

  切里奥

  抓取页面后,操作dom提取页面中的数据,api和用法类似jquery

  表示

  用于启动一个简单的服务,在浏览器中查看爬虫爬取的数据

  玉

  页面模板引擎

  使用方法将仓库克隆到本地,然后安装相应模块并执行node app启动服务。打开浏览器输入localhost:3000查看效果分析。

  整个爬虫其实很简单。主要功能是发送请求以采集数据,然后对其进行分析。当然,这一步分析不一定收录在爬虫中。您可以自己编写其他模块来分析和处理数据。使用superagent请求知乎接口获取具体数据,但是有些接口有限制,有些数据是通过服务端渲染直接显示在页面上的,不能直接通过知乎接口获取,所以需要从渲染的页面中抓取,所以需要使用cheerio模块进行dom操作,获取对应的dom结构然后获取值。这里需要注意的是,这种需要登录的网站请求可能有权限验证,

  目录说明

  

  主要步骤

  登录和获取授​​权的过程有点繁琐,而且有验证码,所以只能通过快递做转发。有兴趣的可以直接看github代码和对应的注释。代码在此不详述。

  演示测试效果

  github地址

  知乎 带登录功能的爬虫

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线