Open jcf94 opened 6 years ago
请问那两张实际运行的图是在哪里截的呢?
@nanadeis Worker 和 Master 关系那个吗? 来源于 Mellanox 介绍 TensorFlow 和 Caffe2 中 RDMA 实现的某 PPT,搜了下网上确实没找到,不确定这份 PPT 是否方便公开,可以留个邮箱回头发给你。
@jcf94 是的,我的邮箱nanadeis36@gmail.com,非常感谢。
同楼上想要 u2takey@gmail.com
同楼上想要,谢谢楼主。zr123hannah@gmail.com
楼主你也太强了吧
请问能不能也发我一份,感谢!ylxdzsw@ gmail.com
大神,请教下,master在restore模型时,是如何把参数push到ps的呢?哪些参数push到哪个ps上,这个工作是谁来完成的呢?另外方便把PPT发一份给我吗?porykid@gmail.com,万分感谢!!!
你好,请教一个关于分布式i训练的问题,我们在tf2下,使用了tf.distribute.experimental.MultiWorkerMirroredStrategy()来做多机多卡的分布式训练。利用了一个子网内的两台机器上的GPU,每台2GPU做成集群。但是发现,多级多卡模式下的训练会很慢,我们排查了网络带宽、数据读取IO、等问题,都没有有效解决这个问题?不知道您有什么改善建议??或者从C++ tensorflow源码的角度,有哪些方法可以解决?
http://jcf94.com/2018/03/09/2018-03-09-tfunpacking5/