alibaba / euler

A distributed graph deep learning framework.
Apache License 2.0
2.89k stars 559 forks source link

分布式saveing_embedding无法导出id embedding #200

Closed wsnooker closed 4 years ago

wsnooker commented 4 years ago

首先感谢euler团队的出色工作,为对图网络学习感兴趣的小伙伴提供了一个适用的平台;

在我的工作中,基于分布式训练已经完成;在分布式saving_embedding阶段出现问题,只有一个worker 成功,其他worker都卡主; 另外:试了单个ps、单个worker的情况是成功的;(当节点数目很大时,单个worker内存不够,所以才尝试分布式saving)

请问这个问题你们有遇到过吗?希望能提供有些排查的建议和方向,感谢;

alinamimi commented 4 years ago

see #145

wsnooker commented 4 years ago

see #145

感谢