Closed yuanlunxi closed 5 months ago
框架:tensorflow 环境:gpu群:6卡p100 xlearning 本地代码已经能跑通,在xlearning上报错; 还望懂得人帮忙解决一下。
local resource 下载超时,排查: 1)cacheFile,cacheArchive,file等文件数据及大小,如果较大,则通过调整 --conf xlearning.localresource.timeout 大小,单位为毫秒; 2)cacheArchive的压缩格式是否为hadoop支持的格式; 3)具体信息可以结合container所在节点的nodemanager日志确认排查
框架:tensorflow 环境:gpu群:6卡p100 xlearning 本地代码已经能跑通,在xlearning上报错; 还望懂得人帮忙解决一下。