Closed 459737087 closed 9 months ago
Command CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --rdzv_backend=c10d --rdzv_endpoint=localhost:29402 --nnodes=1 --nproc_per_node=4 finetune_moss_for_training.py
你好,我注意到tp_size=8
但是命令中只用了4张GPU,应该使用8张gpu。
BTW, 为了提高吞吐量,建议使用dp_size=8, tp_size=1
和zero3
你好,改成了4也是同样的错 @KaiLv69
你好,关掉zero3试试呢?代码在两种情况下测试过:tp+不带zero3的dp
或者 dp with zero3 不加 tp
没成功,我也不知道有什么办法了。。。
启动脚本
2.1 加载配置