dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning)
https://github.com/dyweb/papers-notebook/issues?utf8=%E2%9C%93&q=is%3Aissue+is%3Aopen+-label%3ATODO-%E6%9C%AA%E8%AF%BB
Apache License 2.0
2.12k stars 244 forks source link

Elastic deep learning in multi-tenant GPU cluster #197

Open gaocegege opened 4 years ago

gaocegege commented 4 years ago

https://arxiv.org/abs/1909.11985

来源: #133 的被引

gaocegege commented 4 years ago

这是一篇做弹性的分布式模型训练的论文,其基于 AllReduce 模式,利用 etcd 或者 zookeeper 做分布式一致性中间件,在每次训练进行选主,leader 负责确定拓扑等。跟 https://github.com/caicloud/ftlib/ 的 PV 模式差不多,只是它用了 etcd 做分布式一致性,而 ftlib 的 PV 模式简单的用了 K8s PV。而 ftlib 支持的 gossip 模式,我觉得是更加适合这个场景的。