TensorFlow 拆包（五）：Distributed | Chenfan Blog

jcf94 / blog-comments

A repository for my personal blog.

http://jcf94.com/

2 stars 0 forks source link

TensorFlow 拆包（五）：Distributed | Chenfan Blog #150

Open jcf94 opened 6 years ago

jcf94 commented 6 years ago

http://jcf94.com/2018/03/09/2018-03-09-tfunpacking5/

nanadeis commented 6 years ago

请问那两张实际运行的图是在哪里截的呢？

jcf94 commented 6 years ago

@nanadeis Worker 和 Master 关系那个吗？来源于 Mellanox 介绍 TensorFlow 和 Caffe2 中 RDMA 实现的某 PPT，搜了下网上确实没找到，不确定这份 PPT 是否方便公开，可以留个邮箱回头发给你。

nanadeis commented 6 years ago

@jcf94 是的，我的邮箱nanadeis36@gmail.com，非常感谢。

u2takey commented 6 years ago

同楼上想要 u2takey@gmail.com

Hannah-xxl commented 6 years ago

同楼上想要，谢谢楼主。zr123hannah@gmail.com

jchen357 commented 5 years ago

楼主你也太强了吧

ylxdzsw commented 5 years ago

请问能不能也发我一份，感谢！ylxdzsw@ gmail.com

poryfly commented 5 years ago

大神，请教下，master在restore模型时，是如何把参数push到ps的呢？哪些参数push到哪个ps上，这个工作是谁来完成的呢？另外方便把PPT发一份给我吗？porykid@gmail.com，万分感谢！！！

Yazooliu commented 2 years ago

你好，请教一个关于分布式i训练的问题，我们在tf2下，使用了tf.distribute.experimental.MultiWorkerMirroredStrategy（）来做多机多卡的分布式训练。利用了一个子网内的两台机器上的GPU，每台2GPU做成集群。但是发现，多级多卡模式下的训练会很慢，我们排查了网络带宽、数据读取IO、等问题，都没有有效解决这个问题？不知道您有什么改善建议？？或者从C++ tensorflow源码的角度，有哪些方法可以解决？