Qihoo360 / hbox

AI on Hadoop
Apache License 2.0
1.73k stars 385 forks source link

tensorflow 分布式estimator启动 出现 TrainStatus:false #46

Closed yuanlunxi closed 5 months ago

yuanlunxi commented 6 years ago

image

框架:tensorflow 环境:gpu群:6卡p100 xlearning 本地代码已经能跑通,在xlearning上报错; 还望懂得人帮忙解决一下。

jiarunying commented 6 years ago

local resource 下载超时,排查: 1)cacheFile,cacheArchive,file等文件数据及大小,如果较大,则通过调整 --conf xlearning.localresource.timeout 大小,单位为毫秒; 2)cacheArchive的压缩格式是否为hadoop支持的格式; 3)具体信息可以结合container所在节点的nodemanager日志确认排查