Open LucasTsui0725 opened 1 year ago
Could you please let me know which version of the code you are using?
目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题
目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题
你可以检查一下PS的内存是否OOM,以及可以增加参数设置 gl.set_retry_times(15)