前两天遇到一个妹子，她说不会从拉网页，我想用做个

优采云发布时间: 2021-08-13 18:12

　　两天前我认识了一个女孩。她说她不能拉网页。想用node作为网页爬虫工具简单点，于是开始安装x之路。

　　其实这个想法很简单。从url中获取html，从html中解析css、js、image等，单独下载。

　　一个难点在于路径解析。例如，一般页面是域名。有的页面，路径层次比较深，突然想到sea.js，想必是路径问题很头疼吧。简单看了一下，确实其中的规律比其他的要复杂，所以没办法硬着头皮。刚刚看了regular的正零宽度断言，感觉没有之前想的那么难。

　　还有一个问题，另一个是异步多线程。在某些页面中必须有很多图片。我应该使用单线程下载吗？显然不合适，所以我们需要使用多线程，如何使用多线程请参考我的文章node多线程服务器，这里不再赘述。而这里是多线程请求，直接参考集群模块即可。

　　另一个是node的异步编程方案。 async/await 函数和promise 对象的使用在下载主页时应该阻塞，而下载css、js、图片是同步非阻塞的。

　　好吧，这么多不如上面的代码：

　　一个简单的网页抓取工具（节点版）

　　为什么不在github上获取呢？为您的网站拉一些流量。

　　注意：此链接是安全连接。您的 cookie 不会发送到我的服务器。然后登录您的cnblog并删除您的博客。请随意使用。

0

2021-08-13

网站内容抓取工具

0 个评论

要回复文章请先登录或注册