事实:网站号称采集器没必要，自己做个，再开个爬虫

优采云发布时间: 2022-10-23 22:21

　　关键词采集器大概做大个二十年了，短期来看热度降低是有可能的，人工手动估计都会断，长期来看对网站采集器的审核监控是十分困难的，也可能是没有考虑过相关问题。现在采集器都有一个大而全的采集过滤或者开发者协议，就算是杀毒也可能仅对一些高危站点有监控，实际生产中肯定是不会考虑这些的。本来生产中对这些都是没有考虑过的，采集工具内部人员也都没有这方面的责任心，事实上有生产需求的站点也没有多少个。

　　有个网站没采到，二句话一定要求上传，或者改你网站的爬虫协议等等各种流氓手段，当初一堆人把无良网站抓了然后开源，他们买了上百万的域名放那了(=_=)，现在都抓不到了...现在整个服务器上只要一小块业务数据，很少有人会故意把整个爬虫程序抓下来直接丢上去的。有些人肯定会说你用免费的也可以抓啊，是，谁用谁知道，免费当然可以，不过要处理这些相关问题...。

　　网站号称采集器没必要，自己做个，再开个爬虫api，最好是自己写爬虫。抓信息收费，这是无解。

　　赞同@朱小黎，但免费的确实比较难发展。据我观察，网站对于采集器的刚需真的没那么强烈，并不一定是刚需，而是需要其他更高级的解决方案，比如人工审核，比如控制浏览量。而如何让爬虫不是机器而是人工，未来会是一个大热点。

0

2022-10-23

关键词采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

事实:网站号称采集器没必要，自己做个，再开个爬虫

0 个评论

发起人