最近在开发一款开源云端爬虫采集框架工具(基于 C+PHP 实现)遇到的难坑

优采云 发布时间: 2020-08-16 19:25

  最近在开发一款开源云端爬虫采集框架工具(基于 C+PHP 实现)遇到的难坑

  目前已完成70%,等到下边几个问题解决后将开源。目前存在的几个主要问题是:1、云端执行的代理IP问题:(自己爬过滤or其它工具或apiorasdl,哪个好?)2、大量数据excel/csv导入问题:(如果一次性从mysql类型数据库导入100w+数据,怎么解决?内存处理,直接dump下来通常都卡死)3、自定义脚本沙盒如何处理?(单独的一个html处理容器,让用户自己写脚本处理。目前用的python,服务器用php实现。有没有开源方案开源参考?主要是安全问题)

  参考产品:优采云采集器、优采云采集引擎、import.io。基础功能主要参考优采云,功能不错太全,但是单机的,,。import.io是美国的产品,自动化形式采集web,网站经常墙,找灵感的。优采云是前面说是国外首款云采集工具,用了两周很不错。确实是我想要学习的。。做了个采集V2EX邮箱的示例:各位有好的云采集的产品希望分享,一起研究。

  功能基本以优采云为主即可。云菜鸡以优采云的为主,特别是想做个规则市场,类似优采云那个。要是能否实现不写规则自动化智能辨识采集最好。这是未来的方向。总结出来就是:优采云+优采云的模式。

  求牛逼解决方案,优先开放github地址。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线