Open gaocegege opened 4 years ago
这篇论文首先通过实验,分析了分布式训练里,worker 计算梯度,PS 聚合梯度,还有 host 到 GPU 的 mem copy 时间,以及通信时间所占的比例。
其中发现,以 VGG 为代表的部分模型,网络通信花费的时间最多。这个原因可以参考 #133 的部分结论(跟 Tensor Size 的大小和分布有关)。
另外,模型训练间的互相影响也有点大,这是因为尽管他们没有共享 GPU,但是 PCIe 等资源还是共享的。
最后,某些 CNN 模型的参数量,很大部分来自最后的 FC。如果能把 FC 放到 PS 上去,通信量在理论上会小很多。
https://arxiv.org/abs/1901.05803