Open ZXM1063694570 opened 1 year ago
使用了提供的Dockerhub上的镜像0.1.7,但是在运行GPT案例时候出现RuntimeError: Could not find 'SLURM_PROCID'问题,并且在0.1.8镜像版本中也是如此 这是我的run脚本: 其中我的gpt2_configs配置换了其他的配置也出现同样的问题
docker pull hpcaitech/colossalai:0.1.7 & 0.1.8 pip install transformers pip install titans
8张A100
加一下 --from_torch在启动命令args里。没加默认用slurm启动
🐛 Describe the bug
使用了提供的Dockerhub上的镜像0.1.7,但是在运行GPT案例时候出现RuntimeError: Could not find 'SLURM_PROCID'问题,并且在0.1.8镜像版本中也是如此
这是我的run脚本:
其中我的gpt2_configs配置换了其他的配置也出现同样的问题
Environment
docker pull hpcaitech/colossalai:0.1.7 & 0.1.8 pip install transformers pip install titans
8张A100