Closed wsnooker closed 4 years ago
首先感谢euler团队的出色工作,为对图网络学习感兴趣的小伙伴提供了一个适用的平台;
在我的工作中,基于分布式训练已经完成;在分布式saving_embedding阶段出现问题,只有一个worker 成功,其他worker都卡主; 另外:试了单个ps、单个worker的情况是成功的;(当节点数目很大时,单个worker内存不够,所以才尝试分布式saving)
请问这个问题你们有遇到过吗?希望能提供有些排查的建议和方向,感谢;
see #145
感谢
首先感谢euler团队的出色工作,为对图网络学习感兴趣的小伙伴提供了一个适用的平台;
在我的工作中,基于分布式训练已经完成;在分布式saving_embedding阶段出现问题,只有一个worker 成功,其他worker都卡主; 另外:试了单个ps、单个worker的情况是成功的;(当节点数目很大时,单个worker内存不够,所以才尝试分布式saving)
请问这个问题你们有遇到过吗?希望能提供有些排查的建议和方向,感谢;