Closed FangKQ closed 1 week ago
具体错误指的是什么 你的启动命令是什么
torchrun --nproc_per_node 3 1-pretrain.py
这样遇到什么问题了 BTW:有cuda后端和硬件吗 😊
具体错误指的是什么 你的启动命令是什么
torchrun --nproc_per_node 3 1-pretrain.py
这样遇到什么问题了 BTW:有cuda后端和硬件吗 😊 感谢你的回复 具体是这样的 我在pretrain.py设置DDP相关指令,但是到了dist.init_process_group(backend="nccl")就卡死,挂起来了,没法继续执行下一句代码,具体代码设置如下:
请问我在脚本上设置DDP,dist.init_process_group(backend="nccl")老是超时,是我设置有问题吗? 我的设置如下: `os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = '12355' os.environ["RANK"] = "0" os.environ["WORLD_SIZE"] = "3" # 总进程数 os.environ["OMP_NUM_THREADS"] = "1" # 你可以根据需求调整这个值
设置 CUDA 设备,确保使用所有可用的 GPU
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2" # 使用 GPU 0, 1, 2,根据你的可用设备调整`