dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning)
https://github.com/dyweb/papers-notebook/issues?utf8=%E2%9C%93&q=is%3Aissue+is%3Aopen+-label%3ATODO-%E6%9C%AA%E8%AF%BB
Apache License 2.0
2.12k stars 244 forks source link

Accelerated Training for CNN Distributed Deep Learning through Automatic Resource-Aware Layer Placement #198

Open gaocegege opened 4 years ago

gaocegege commented 4 years ago

https://arxiv.org/abs/1901.05803

gaocegege commented 4 years ago

这篇论文首先通过实验,分析了分布式训练里,worker 计算梯度,PS 聚合梯度,还有 host 到 GPU 的 mem copy 时间,以及通信时间所占的比例。

Screenshot from 2019-12-16 12-29-09

其中发现,以 VGG 为代表的部分模型,网络通信花费的时间最多。这个原因可以参考 #133 的部分结论(跟 Tensor Size 的大小和分布有关)。

另外,模型训练间的互相影响也有点大,这是因为尽管他们没有共享 GPU,但是 PCIe 等资源还是共享的。

Screenshot from 2019-12-16 12-33-35

最后,某些 CNN 模型的参数量,很大部分来自最后的 FC。如果能把 FC 放到 PS 上去,通信量在理论上会小很多。