OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.19k stars 88 forks source link

资源占用问题 #32

Open Ming-Di opened 8 months ago

Ming-Di commented 8 months ago

请问在RLHF过程中,actor,refrence,critic和reward使用的都是7B吗,使用offload了吗,我用的4张80G卡,使用offload的情况下,加载完模型就占用60g了,batch size=4,显存就占满了

Ablustrund commented 8 months ago

您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。

Ablustrund commented 8 months ago

我们在开源代码时去掉了Zero3的部分。经过验证代码是可以完美适配Zero3的。

Ming-Di commented 8 months ago

您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。

非常感谢😁,请问您训练时 是使用8卡 + zero3 + 不开offload 的设定吗,这样的话 batchsize能到多少呢,我想参考一下