事实:网站号称采集器没必要,自己做个,再开个爬虫
优采云 发布时间: 2022-10-23 22:21事实:网站号称采集器没必要,自己做个,再开个爬虫
关键词采集器大概做大个二十年了,短期来看热度降低是有可能的,人工手动估计都会断,长期来看对网站采集器的审核监控是十分困难的,也可能是没有考虑过相关问题。现在采集器都有一个大而全的采集过滤或者开发者协议,就算是杀毒也可能仅对一些高危站点有监控,实际生产中肯定是不会考虑这些的。本来生产中对这些都是没有考虑过的,采集工具内部人员也都没有这方面的责任心,事实上有生产需求的站点也没有多少个。
有个网站没采到,二句话一定要求上传,或者改你网站的爬虫协议等等各种流氓手段,当初一堆人把无良网站抓了然后开源,他们买了上百万的域名放那了(=_=),现在都抓不到了...现在整个服务器上只要一小块业务数据,很少有人会故意把整个爬虫程序抓下来直接丢上去的。有些人肯定会说你用免费的也可以抓啊,是,谁用谁知道,免费当然可以,不过要处理这些相关问题...。
网站号称采集器没必要,自己做个,再开个爬虫api,最好是自己写爬虫。抓信息收费,这是无解。
赞同@朱小黎,但免费的确实比较难发展。据我观察,网站对于采集器的刚需真的没那么强烈,并不一定是刚需,而是需要其他更高级的解决方案,比如人工审核,比如控制浏览量。而如何让爬虫不是机器而是人工,未来会是一个大热点。