zyushun / Adam-mini

Code for Adam-mini: Use Fewer Learning Rates To Gain More https://arxiv.org/abs/2406.16793
257 stars 9 forks source link

使用Adam-mini,全参量微调7B模型需要多少显存? #13

Open NTDXYG opened 1 month ago

NTDXYG commented 1 month ago

如题

zyushun commented 1 month ago

hi @NTDXYG ! 感谢提问!

7B 模型用Adam-mini全量微调大概需要28GB 显存,具体可见下表 (Table 1 in our paper https://arxiv.org/pdf/2406.16793).

image
NTDXYG commented 1 month ago

我尝试将7B的模型压缩到5.7B,在尝试24G现存的单卡上进行微调还是会OOM,我不确定哪里出现了问题,我的序列长度是512.

chcoliang commented 1 month ago

hi @NTDXYG !在单卡24G内存上微调5.7B出现OOM的情况是正常的。上述Table 1描述的是优化器本身占用的内存,但是模型参数梯度和激活函数本身还需要额外的内存,所以用单卡24G尝试Adam-mini微调5.7B模型会OOM。

如果只能进行24G的单卡微调,我们建议微调的模型不超过2.5B 如果需要进行更大的模型微调,可以使用4卡并行,或者使用cpu_offload

NTDXYG commented 1 month ago

谢谢