alibaba / euler

A distributed graph deep learning framework.
Apache License 2.0
2.89k stars 559 forks source link

euler 分布式训练ps问题 #300

Open ziyang599 opened 3 years ago

ziyang599 commented 3 years ago

当增加ps数量到3个后,只有两个在使用,另一个的使用率几乎为0。请问改如何解决

pangedeshijie commented 3 years ago

@ziyang599 请教一下,3个PS时,model_dir 是不是只能指定hdfs目录呀,我指定了本地的同名目录,结果有错误,指定hdfs目录需要配置什么呀,目录格式是什么呢? 感谢解答!

ziyang599 commented 3 years ago

用ps就是分布式训练了,只能把数据放在hdfs上

资洋

邮箱:ziyang599@163.com |

签名由 网易邮箱大师 定制

在2020年09月03日 15:53,pangedeshijie 写道:

@ziyang599 请教一下,3个PS时,model_dir 是不是只能指定hdfs目录呀,我指定了本地的同名目录,结果有错误,指定hdfs目录需要配置什么呀,目录格式是什么呢? 感谢解答!

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

SXiaZr commented 3 years ago

你好,遇到了相同的问题,除了两个PS,其余PS的使用率几乎为0,请问这个问题当时解决了吗,感谢