Open Ming-Di opened 1 year ago
您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。
我们在开源代码时去掉了Zero3的部分。经过验证代码是可以完美适配Zero3的。
您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。
非常感谢😁,请问您训练时 是使用8卡 + zero3 + 不开offload 的设定吗,这样的话 batchsize能到多少呢,我想参考一下
请问在RLHF过程中,actor,refrence,critic和reward使用的都是7B吗,使用offload了吗,我用的4张80G卡,使用offload的情况下,加载完模型就占用60g了,batch size=4,显存就占满了