网页抓取工具(前两天遇到一个妹子，她说不会从拉网页，我想用做个)

优采云发布时间: 2021-11-20 16:08

　　前两天认识了一个女孩。她说她不会拉网页。想用node做一个这么简单的网页爬虫工具，就开始了安装x之路。

　　其实这个想法很简单。从url中获取html，从html中解析css、js、image等，单独下载。

　　难点之一在于路径解析。例如，一般页面是域名。有的页面，路径层次比较深，突然想到sea.js，肯定是路径问题很头疼。简单看了一下，确实其中的规律比其他的要复杂，所以没办法硬着头皮。刚刚看了regular的正零宽度断言，感觉没有之前想的那么难。

　　另一个问题是另一个是异步多线程。在某些页面中必须有很多图片。我应该使用单线程下载吗？显然不合适，所以需要使用多线程，如何使用多线程请参考我的文章node多线程服务器，这里不再赘述。而这里是多线程请求，直接参考集群模块即可。

　　另一种是node的异步编程方案，使用async/await函数和promise对象，下载首页时需要阻塞，而下载css、js、image都是同步非阻塞的。

　　好吧，这么多不如上面的代码：

　　一个简单的网页抓取工具（节点版）

　　为什么不在github上获取呢？为您自己的网站拉一些流量。

　　注意：此链接是安全连接，您的cookie不会发送到我的服务器，然后登录您的cnblog，删除您的博客，请放心使用。

0

2021-11-20

网页抓取工具

0 个评论

要回复文章请先登录或注册