hpcaitech / ColossalAI-Examples

Examples of training models with hybrid parallelism using ColossalAI
Apache License 2.0
333 stars 102 forks source link

运行GPT2案例出现RuntimeError: Could not find 'SLURM_PROCID'问题,是必须要装SLURM环境? #161

Open ZXM1063694570 opened 1 year ago

ZXM1063694570 commented 1 year ago

🐛 Describe the bug

使用了提供的Dockerhub上的镜像0.1.7,但是在运行GPT案例时候出现RuntimeError: Could not find 'SLURM_PROCID'问题,并且在0.1.8镜像版本中也是如此 M4QKMAI7`6Q~U9`52 KAY5Y T4GKG9P$KSS$XIGXL7{EVAM 这是我的run脚本: 260CY7X5}DOF1363S{4PJ`1 其中我的gpt2_configs配置换了其他的配置也出现同样的问题

Environment

docker pull hpcaitech/colossalai:0.1.7 & 0.1.8 pip install transformers pip install titans

8张A100

feifeibear commented 1 year ago

加一下 --from_torch在启动命令args里。没加默认用slurm启动