nodejs抓取动态网页(爬虫抓取动态网页或者blog首页的链接需要动态页面加载)

优采云发布时间: 2022-01-15 05:01

　　nodejs抓取动态网页或者blog首页的链接需要动态页面加载。之前有三种方式：*敏*感*词*http请求，改变这个加载网页时间。*敏*感*词*ajax请求，动态调整加载时间。*敏*感*词*post请求，动态调整加载时间。效果展示：从业务角度来说，网页加载速度越快，就意味着爬虫抓取请求更快，对服务器压力也更小，抓取速度更快。从服务器角度说，单纯从时间上来说，没有意义，而是看你的代码性能够不够快，是不是按照需求实现了。

　　selenium，自带的技术，之前网上很多人推荐，有很多坑。selenium爬虫基本调用js，使用javascript脚本来伪装浏览器动作，感觉抓取动态不是一个优雅的解决方案。d3.js，bootstrap的js库，作者写的东西，相对于selenium，使用了d3.js的*敏*感*词*数据格式来加载，感觉没那么好，*敏*感*词*的数据格式也较一般json格式，而且请求的时候加载速度特别慢。

　　browserlogging，这个功能应该比较常用，速度较快，但是没有*敏*感*词*请求时间的buffer格式数据。动态网页是直接存储的，网上有相关介绍。

　　1、动态调试

　　2、mongodb，

　　3、beautifulsoup（es2015版本以上版本，

　　你可以试一下bower(bower)

　　楼上的答案很赞，大概可以说没法再快了。要达到selenium3那样的效果，你要把每次都用的代码都在线上跑一下，然后改成代理。还有问题可以私信我。

0

2022-01-15

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页(爬虫抓取动态网页或者blog首页的链接需要动态页面加载)

0 个评论

发起人