Angel-ML / PyTorch-On-Angel

PyTorch On Angel, arming PyTorch with a powerful Parameter Server, which enable PyTorch to train very big models.
164 stars 51 forks source link

2021Tencent Rhino-bird Open-source Training Program—Angel Zhi Shen #101

Open xiaohu4313888 opened 2 years ago

xiaohu4313888 commented 2 years ago

腾讯犀牛鸟实战-Angel平台搭建和例程运行

关于运行平台

 1. 平台: AT平台的虚拟机都可以,另外一个云不行!!!
    实测另外一个平台搭建过程会报其他错,可能局域网有些其他设置或者hostname有问题吧。
 2. 编译方式: 本地编译,伪分布式配置,系统centOS 7.2。
 3. gcc: 7.3版本即可, cmake 3.21版本配置libtorch时候会报warning不知道会不会有问题,我后面换成3.12跑通的。
参考网页:
 centOS下gcc的版本升级:https://blog.csdn.net/ncdx111/article/details/106047228
 cmake下载安装:https://blog.csdn.net/weixin_30781433/article/details/98787965?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.base&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.base

关于hadoop,spark和pytorch版本

1. hadoop: 版本选2.7.x即可,2.7.1和2.7.5亲测可用。
2. spark: 之前群里有人测过这里spark2.3.0是必须的, 2.4.0版本会报错。
3. pytorch: pytorch版本为1.3.1,torchvision为0.4.2。这里pytorch我理解是生成模型用的,不知道运行时候还需不需要了。
    libtorch:这里libtorch选1.3.1,pytorch官网有同版本libtorch,pre-ABI和ABI,编译时候都是对的,但有一个在运行时候会报 
    符号错误。我记得pre-ABI应该是可用的,记不太清楚了。

参考网页:
    hadoop搭建:https://blog.csdn.net/csdnmrliu/article/details/82963783(非源码编译下载后解压缩,配置环境变量即可)
    github下载加速:https://blog.csdn.net/haejwcalcv/article/details/108028245
    spark搭建:https://archive.apache.org/dist/,下载压缩包后解压缩然后配置conf文件夹后的env脚本即可

关于hadoop和spark的配置

配置之前有同学发了,可以直接用。

关于环境变量和环境变量可能导致问题

PATH1 PATH2

这几行到没有什么,java注意不要配错就行。

PATH3

ANGEL包的地址配错,或者scla地址配错或者jar包遗漏都会报error,exit 0,具体看就是example.scala的第80行报错,也就是读取那块,我卡在这里卡了很久。

PATH4

有需要可以参考一下,我不知道最后几个变量有没有用。

一些其他可能的问题

  1. 运行程序时候一直卡在accept状态: 如果不是命令行内存分配不对就是yarn给的不对,再不行就换机子,内存尽量配到30G感觉会比较好?
  2. 运行时候一直卡在RUNNING: 我后面重新配环境,这个问题就没有出现了,当时是ps一直没有启动,因为没有日志也不知道具体什么原因,如果遇到。。。自求多福吧
  3. HDFS地址,其实hdfs不太重要,地址写不到都能从日志看到,慢慢改就好,但out的地址一定记得写到hdfs里面,不要写root!!!原因见下图: 微信图片_20210811193718

    惊不惊喜意不意外刺不刺激???跑完succeed然后把root目录整个删掉就很离谱。

  4. queue提示找不到,按下面命令改。
  5. 申请block失败。换云服务器2333,只在一个云服务器上遇到这个情况。

中间还有一些其他乱七八糟的问题,不太想回滚聊天记录了,应该都可以百度解决。 https://blog.csdn.net/qq_50665031/article/details/108987205 这是一个安装glbic2.23的网页,忘记做什么时候用到的了,有其他人遇到可以看一下。

关于command命令

PATH5

运行成功截图

succeed result

over.

xiaozhi-alan-zhu commented 2 years ago

请问有没有什么交流群可以相互交流angel吗?