Accelerated Training for CNN Distributed Deep Learning through Automatic Resource-Aware Layer Placement

dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记（分布式系统、虚拟化、机器学习）Papers Notebook (Distributed System, Virtualization, Machine Learning)

Apache License 2.0

2.15k stars 251 forks source link

这篇论文首先通过实验，分析了分布式训练里，worker 计算梯度，PS 聚合梯度，还有 host 到 GPU 的 mem copy 时间，以及通信时间所占的比例。

Screenshot from 2019-12-16 12-29-09

其中发现，以 VGG 为代表的部分模型，网络通信花费的时间最多。这个原因可以参考 #133 的部分结论（跟 Tensor Size 的大小和分布有关）。

另外，模型训练间的互相影响也有点大，这是因为尽管他们没有共享 GPU，但是 PCIe 等资源还是共享的。

Screenshot from 2019-12-16 12-33-35

最后，某些 CNN 模型的参数量，很大部分来自最后的 FC。如果能把 FC 放到 PS 上去，通信量在理论上会小很多。

dyweb / papers-notebook