hiyouga / LLaMA-Factory

Unify Efficient Fine-Tuning of 100+ LLMs
Apache License 2.0
25.52k stars 3.16k forks source link

qwen2-72b DPO 训练爆显存,OOM 问题; #4616

Closed THZdyjy closed 4 days ago

THZdyjy commented 4 days ago

脚本如下关键参数如下: deepspeed \ src/train.py \ --stage dpo \ --finetuning_type full \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4 \ --preprocessing_num_workers 8 \ --bf16 True \ --cutoff_len 6144 \ 使用了 16 *8=128 张 A800,cutoff_len 刚开始设置为 8192,爆显存。然后改为 6144 还是OOM。 采用 deepspeed zero3.

观察到的一个现象是,训练刚开始时正常,随着训练的进行,显存占用率逐渐升高。最后 oom,请问这是什么原因,能从框架本身给出一些可能的解释吗?

hiyouga commented 4 days ago

试试用 paged_adamw_32bit 或 paged_adamw_8bit