最近在开发基于C + PHP实现的开源云搜寻器采集框架工具时遇到的困难

优采云 发布时间: 2020-08-06 03:12

  到目前为止,已经完成了70%,在解决了以下问题之后,它将开源. 当前存在的主要问题是: 1.在云中执行的代理IP问题: (爬网筛选器或其他工具或apiorasdl,哪个更好?)2.将大量数据导出到excel / csv的问题: (如果一次从mysql类型数据库中解决如何解决导出100w +数据的问题?内存处理,通常直接转出卡住了)3.如何处理自定义脚本沙箱? (一个单独的html处理容器允许用户编写自己的脚本. 当前使用python,该服务器是用php实现的. 是否有开放源代码的开放源解决方案参考?主要是安全问题)

  参考产品: 优采云采集器,出生地获取引擎,import.io. 基本功能主要指优采云,它是好的和完整的,但它是一台独立的计算机. import.io是*敏*感*词*起来以获取灵感. 原产地是中国第一个云采集工具. 花了两个星期,非常好. 这确实是我想要学习的. . 我举了一个采集V2EX邮箱的示例: 您有想要共享和学习的优质云采集产品.

  该功能基本上基于优采云. 云才鸡主要来自其优采云,特别是如果它想成为一个与优采云类似的常规市场. 最好能在不编写规则的情况下实现自动智能识别和采集. 这是未来的方向. 总结起来就是: 优秀彩云+优采云的模型.

  有关出色的解决方案,请首先打开github地址.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线