thu-coai / EVA

EVA: Large-scale Pre-trained Chit-Chat Models
MIT License
305 stars 51 forks source link

MP_SIZE如何在单机多卡条件下工作 #39

Closed tqnwhz closed 2 years ago

tqnwhz commented 2 years ago

您好,感谢你们的工作。

我尝试在单机8*16G P100卡的环境微调EVA 2.0。设置模型并行度为4,并用脚本转换。相关超参数如下:

MP_SIZE=4 # the model parallel size

NUM_GPUS_PER_WORKER=2 # number of gpus used on one node

BATCH_SIZE=8

但是运行微调脚本后发现,模型只占用了前两张卡,剩余6张卡均处于空闲状态,且很快抛出了 CUDA out of memory的错误。因此想请问下在单机多卡条件下模型并行该如何设置。

Jiaxin-Wen commented 2 years ago

NUM_GPUS_PER_WORKER指每台机器使用的GPU数

tqnwhz commented 2 years ago

不好意思,我误解了这个参数的意思。非常感谢您的回复!