Closed THZdyjy closed 4 days ago
脚本如下关键参数如下: deepspeed \ src/train.py \ --stage dpo \ --finetuning_type full \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4 \ --preprocessing_num_workers 8 \ --bf16 True \ --cutoff_len 6144 \ 使用了 16 *8=128 张 A800,cutoff_len 刚开始设置为 8192,爆显存。然后改为 6144 还是OOM。 采用 deepspeed zero3.
观察到的一个现象是,训练刚开始时正常,随着训练的进行,显存占用率逐渐升高。最后 oom,请问这是什么原因,能从框架本身给出一些可能的解释吗?
试试用 paged_adamw_32bit 或 paged_adamw_8bit
脚本如下关键参数如下: deepspeed \ src/train.py \ --stage dpo \ --finetuning_type full \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4 \ --preprocessing_num_workers 8 \ --bf16 True \ --cutoff_len 6144 \ 使用了 16 *8=128 张 A800,cutoff_len 刚开始设置为 8192,爆显存。然后改为 6144 还是OOM。 采用 deepspeed zero3.
观察到的一个现象是,训练刚开始时正常,随着训练的进行,显存占用率逐渐升高。最后 oom,请问这是什么原因,能从框架本身给出一些可能的解释吗?