MP_SIZE如何在单机多卡条件下工作

tqnwhz commented 2 years ago

您好，感谢你们的工作。

我尝试在单机8*16G P100卡的环境微调EVA 2.0。设置模型并行度为4，并用脚本转换。相关超参数如下：

MP_SIZE=4 # the model parallel size

NUM_GPUS_PER_WORKER=2 # number of gpus used on one node

BATCH_SIZE=8

但是运行微调脚本后发现，模型只占用了前两张卡，剩余6张卡均处于空闲状态，且很快抛出了 CUDA out of memory的错误。因此想请问下在单机多卡条件下模型并行该如何设置。

Jiaxin-Wen commented 2 years ago

NUM_GPUS_PER_WORKER指每台机器使用的GPU数

tqnwhz commented 2 years ago

不好意思，我误解了这个参数的意思。非常感谢您的回复！

thu-coai / EVA