qwen2-72b DPO 训练爆显存，OOM 问题；

脚本如下关键参数如下： deepspeed \ src/train.py \ --stage dpo \ --finetuning_type full \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4 \ --preprocessing_num_workers 8 \ --bf16 True \ --cutoff_len 6144 \ 使用了 16 *8=128 张 A800，cutoff_len 刚开始设置为 8192，爆显存。然后改为 6144 还是OOM。采用 deepspeed zero3.

观察到的一个现象是，训练刚开始时正常，随着训练的进行，显存占用率逐渐升高。最后 oom，请问这是什么原因，能从框架本身给出一些可能的解释吗？

hiyouga / LLaMA-Factory

qwen2-72b DPO 训练爆显存，OOM 问题； #4616