Open gaocegege opened 4 years ago
这是一篇做弹性的分布式模型训练的论文,其基于 AllReduce 模式,利用 etcd 或者 zookeeper 做分布式一致性中间件,在每次训练进行选主,leader 负责确定拓扑等。跟 https://github.com/caicloud/ftlib/ 的 PV 模式差不多,只是它用了 etcd 做分布式一致性,而 ftlib 的 PV 模式简单的用了 K8s PV。而 ftlib 支持的 gossip 模式,我觉得是更加适合这个场景的。
https://arxiv.org/abs/1909.11985
来源: #133 的被引