前两天遇到一个妹子,她说不会从拉网页,我想用做个
优采云 发布时间: 2021-08-13 18:12前两天遇到一个妹子,她说不会从拉网页,我想用做个
两天前我认识了一个女孩。她说她不能拉网页。想用node作为网页爬虫工具简单点,于是开始安装x之路。
其实这个想法很简单。从url中获取html,从html中解析css、js、image等,单独下载。
一个难点在于路径解析。例如,一般页面是域名。有的页面,路径层次比较深,突然想到sea.js,想必是路径问题很头疼吧。简单看了一下,确实其中的规律比其他的要复杂,所以没办法硬着头皮。刚刚看了regular的正零宽度断言,感觉没有之前想的那么难。
还有一个问题,另一个是异步多线程。在某些页面中必须有很多图片。我应该使用单线程下载吗?显然不合适,所以我们需要使用多线程,如何使用多线程请参考我的文章node多线程服务器,这里不再赘述。而这里是多线程请求,直接参考集群模块即可。
另一个是node的异步编程方案。 async/await 函数和promise 对象的使用在下载主页时应该阻塞,而下载css、js、图片是同步非阻塞的。
好吧,这么多不如上面的代码:
一个简单的网页抓取工具(节点版)
为什么不在github上获取呢?为您的网站 拉一些流量。
注意:此链接是安全连接。您的 cookie 不会发送到我的服务器。然后登录您的cnblog并删除您的博客。请随意使用。