jcf94 / blog-comments

A repository for my personal blog.
http://jcf94.com/
2 stars 0 forks source link

TensorFlow 拆包(五):Distributed | Chenfan Blog #150

Open jcf94 opened 6 years ago

jcf94 commented 6 years ago

http://jcf94.com/2018/03/09/2018-03-09-tfunpacking5/

nanadeis commented 6 years ago

请问那两张实际运行的图是在哪里截的呢?

jcf94 commented 6 years ago

@nanadeis Worker 和 Master 关系那个吗? 来源于 Mellanox 介绍 TensorFlow 和 Caffe2 中 RDMA 实现的某 PPT,搜了下网上确实没找到,不确定这份 PPT 是否方便公开,可以留个邮箱回头发给你。

nanadeis commented 6 years ago

@jcf94 是的,我的邮箱nanadeis36@gmail.com,非常感谢。

u2takey commented 6 years ago

同楼上想要 u2takey@gmail.com

Hannah-xxl commented 6 years ago

同楼上想要,谢谢楼主。zr123hannah@gmail.com

jchen357 commented 5 years ago

楼主你也太强了吧

ylxdzsw commented 5 years ago

请问能不能也发我一份,感谢!ylxdzsw@ gmail.com

poryfly commented 5 years ago

大神,请教下,master在restore模型时,是如何把参数push到ps的呢?哪些参数push到哪个ps上,这个工作是谁来完成的呢?另外方便把PPT发一份给我吗?porykid@gmail.com,万分感谢!!!

Yazooliu commented 2 years ago

你好,请教一个关于分布式i训练的问题,我们在tf2下,使用了tf.distribute.experimental.MultiWorkerMirroredStrategy()来做多机多卡的分布式训练。利用了一个子网内的两台机器上的GPU,每台2GPU做成集群。但是发现,多级多卡模式下的训练会很慢,我们排查了网络带宽、数据读取IO、等问题,都没有有效解决这个问题?不知道您有什么改善建议??或者从C++ tensorflow源码的角度,有哪些方法可以解决?