alibaba / graph-learn

An Industrial Graph Neural Network Framework
Apache License 2.0
1.28k stars 267 forks source link

参考tutorial中进行dist.yaml的分布式训练时,worker产生了Unimplemented和Unavailable的报错 #270

Open LucasTsui0725 opened 1 year ago

LucasTsui0725 commented 1 year ago

企业微信截图_3cc11bd8-b82a-4c38-9547-6bc6cb892963

LucasTsui0725 commented 1 year ago

企业微信截图_7442d23c-ea11-475f-92dc-b42fb7457457

Seventeen17 commented 1 year ago

Could you please let me know which version of the code you are using?

LucasTsui0725 commented 1 year ago

目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题

Seventeen17 commented 1 year ago

目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题

你可以检查一下PS的内存是否OOM,以及可以增加参数设置 gl.set_retry_times(15)