PyTorch On Angel, arming PyTorch with a powerful Parameter Server, which enable PyTorch to train very big models.
164
stars
51
forks
source link
2021Tencent Rhino-bird Open-source Training Program—Angel Zhi Shen #101
Open
xiaohu4313888 opened 2 years ago
腾讯犀牛鸟实战-Angel平台搭建和例程运行
关于运行平台
关于hadoop,spark和pytorch版本
关于hadoop和spark的配置
关于环境变量和环境变量可能导致问题
这几行到没有什么,java注意不要配错就行。
ANGEL包的地址配错,或者scla地址配错或者jar包遗漏都会报error,exit 0,具体看就是example.scala的第80行报错,也就是读取那块,我卡在这里卡了很久。
有需要可以参考一下,我不知道最后几个变量有没有用。
一些其他可能的问题
惊不惊喜意不意外刺不刺激???跑完succeed然后把root目录整个删掉就很离谱。
中间还有一些其他乱七八糟的问题,不太想回滚聊天记录了,应该都可以百度解决。 https://blog.csdn.net/qq_50665031/article/details/108987205 这是一个安装glbic2.23的网页,忘记做什么时候用到的了,有其他人遇到可以看一下。
关于command命令
运行成功截图
over.