自动采集等很多插件,楼主可以关注下超v(/)
优采云 发布时间: 2021-07-23 23:01自动采集等很多插件,楼主可以关注下超v(/)
自动采集等很多插件,楼主可以关注下超v(/),帮助程序员实现高质量的网站采集,现在推出windows平台版了!具体楼主可以看一下这个网站:html5在线*敏*感*词*有个交流的版本,用户可以在交流论坛中分享自己的windows版本。其他平台,可以看到他的微信:超v(),还是做了很多的交流的。
看了一下回答,没有回答到楼主的需求:没有客户端不等于没有后端,后端可以搭载自己写的程序,也可以在别的程序里加入后端的功能。所以做采集器不需要有客户端,本质上是以前的小型采集器(比如知名采集器flashdown的轻版本tenzing或者微秘的自动采集stargling就是这样)解决了通过浏览器来采集网页的问题,让采集更加简单。
而windows上没有办法找到自己写的程序的情况下,对于小型采集器来说,现有程序是不是足够给采集服务器带来足够负荷,这需要看自己的网站目前是否足够小众(如足够垂直和高质量,否则现有程序的限制会让问题更加复杂),如果不是很小众的话,本地也是可以用web代理服务器实现的,小型采集器可以直接只用本地的代理服务器。不过个人感觉这样的采集器的意义不是很大,容易造成不同终端上的运行速度差异。
首先,这个需求是非常好的,可以借鉴之前网站采集器的做法,试一下高qtime/spiderlist/spiderstart等采集器;其次,如果有没有客户端,那么就会面临多部分公司使用自动采集。你需要对大量网站进行采集分析,根据平均和历史网站访问和时间变化,推断出哪些页面需要被采集,用代理服务器还是用服务器。