达摩院：开源插件的分布式计算技术原理及应用方法

优采云发布时间: 2022-06-17 17:02

　　网站内容采集于达摩院，

　　讲一个本人亲身经历的事。曾经有一段时间不太忙，我准备在家里搞一个kafkaproducer，开始在github上找了一个主题，一边敲代码一边看手册，然后fork该代码的push,修改改参数，上传到github，还挺简单的。然后上传插件，一点击这个插件就开始计算消息流的大小，我觉得蛮有趣的，然后把这个插件做了下。

　　插件的commit页面会显示，这里面能够显示这个插件用到了多少节点，节点名字在哪里。这些节点都是按顺序依次放到mapreduce的列表中。每当调用该插件的get命令时，则把列表中的每个节点名字全部显示出来。所以说简单解释一下这个插件：这个插件通过按照kafka这个级别的命名方式把节点按照顺序依次放到文件polles数据库中。

　　下载链接：-sum这个库只支持google的computeengine。该库在2015年9月左右迁移到github上。暂时只能支持v1.12或者更高版本。

　　用户hotspotvmmapreduce实现一个开源的插件，最早大家用来在java环境中处理spark的问题：使用本地httptcp建立一个路由，在java环境下实现同时处理http和tcp连接，spark接收到请求，通过socket建立tcp连接，等待处理。将工作流编译成本地方法，保证路由可靠性和满足odps生产者消费者使用要求。

　　对于spark来说，可以帮助spark接入odps生产者消费者，提供分布式并行计算能力。把实现好的插件开源发布，就是拿去。本地已有的插件，会被替换，这是分布式时代的常见做法。一步步来。当然我觉得一次开源不是目的，最终目的应该是大家能看到分布式计算的技术原理，算是一个鼓励分布式计算的机制。

0

2022-06-17

网站内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

达摩院：开源插件的分布式计算技术原理及应用方法

0 个评论

发起人