网页抓取工具(前两天遇到一个妹子,她说不会从拉网页,我想用做个)
优采云 发布时间: 2021-11-20 16:08网页抓取工具(前两天遇到一个妹子,她说不会从拉网页,我想用做个)
前两天认识了一个女孩。她说她不会拉网页。想用node做一个这么简单的网页爬虫工具,就开始了安装x之路。
其实这个想法很简单。从url中获取html,从html中解析css、js、image等,单独下载。
难点之一在于路径解析。例如,一般页面是域名。有的页面,路径层次比较深,突然想到sea.js,肯定是路径问题很头疼。简单看了一下,确实其中的规律比其他的要复杂,所以没办法硬着头皮。刚刚看了regular的正零宽度断言,感觉没有之前想的那么难。
另一个问题是另一个是异步多线程。在某些页面中必须有很多图片。我应该使用单线程下载吗?显然不合适,所以需要使用多线程,如何使用多线程请参考我的文章node多线程服务器,这里不再赘述。而这里是多线程请求,直接参考集群模块即可。
另一种是node的异步编程方案,使用async/await函数和promise对象,下载首页时需要阻塞,而下载css、js、image都是同步非阻塞的。
好吧,这么多不如上面的代码:
一个简单的网页抓取工具(节点版)
为什么不在github上获取呢?为您自己的 网站 拉一些流量。
注意:此链接是安全连接,您的cookie不会发送到我的服务器,然后登录您的cnblog,删除您的博客,请放心使用。