jingyaogong / minimind

「大模型」3小时完全从0训练26M的小参数GPT,个人显卡即可推理训练!
https://jingyaogong.github.io/minimind
Apache License 2.0
2.7k stars 329 forks source link

脚本设置DDP失败 #52

Closed FangKQ closed 1 week ago

FangKQ commented 1 month ago

请问我在脚本上设置DDP,dist.init_process_group(backend="nccl")老是超时,是我设置有问题吗? 我的设置如下: `os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = '12355' os.environ["RANK"] = "0" os.environ["WORLD_SIZE"] = "3" # 总进程数 os.environ["OMP_NUM_THREADS"] = "1" # 你可以根据需求调整这个值

设置 CUDA 设备,确保使用所有可用的 GPU

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2" # 使用 GPU 0, 1, 2,根据你的可用设备调整`

jingyaogong commented 1 month ago

具体错误指的是什么 你的启动命令是什么

torchrun --nproc_per_node 3 1-pretrain.py

这样遇到什么问题了 BTW:有cuda后端和硬件吗 😊

FangKQ commented 1 month ago

具体错误指的是什么 你的启动命令是什么

torchrun --nproc_per_node 3 1-pretrain.py

这样遇到什么问题了 BTW:有cuda后端和硬件吗 😊 感谢你的回复 具体是这样的 我在pretrain.py设置DDP相关指令,但是到了dist.init_process_group(backend="nccl")就卡死,挂起来了,没法继续执行下一句代码,具体代码设置如下:

Snipaste_2024-09-29_18-19-43