DoRA能够正常训练，但训练生成的检查点加载后占用显存过高。

Reminder

[X] I have read the README and searched the existing issues.

System Info

bin D:\LLaMA-Factory\venv\Lib\site-packages\bitsandbytes\libbitsandbytes_cuda121.dll

llamafactory version: 0.8.4.dev0
Platform: Windows-10-10.0.22621-SP0
Python version: 3.11.1
PyTorch version: 2.4.0+cu121 (GPU)
Transformers version: 4.43.4
Datasets version: 2.20.0
Accelerate version: 0.32.0
PEFT version: 0.12.0
TRL version: 0.9.6
GPU type: NVIDIA RTX A6000

Reproduction

llamafactory-cli train \ --stage sft \ --do_train True \ --model_name_or_path models/Qwen2-7B-Instruct \ --preprocessing_num_workers 16 \ --finetuning_type lora \ --template qwen \ --flash_attn auto \ --dataset_dir data \ --dataset id_zh,qa_zh \ --cutoff_len 2048 \ --learning_rate 1e-05 \ --num_train_epochs 3.0 \ --max_samples 100000 \ --per_device_train_batch_size 16 \ --gradient_accumulation_steps 1 \ --lr_scheduler_type cosine \ --max_grad_norm 1.0 \ --logging_steps 20 \ --save_steps 400 \ --warmup_steps 0 \ --neftune_noise_alpha 0.1 \ --optim adamw_torch \ --packing False \ --report_to none \ --output_dir saves\Qwen2-7B-Chat\lora\checkpoint \ --bf16 True \ --plot_loss True \ --ddp_timeout 180000000 \ --include_num_input_tokens_seen True \ --lora_rank 64 \ --lora_alpha 128 \ --lora_dropout 0.05 \ --create_new_adapter True \ --use_rslora True \ --use_dora True \ --lora_target all

Expected behavior

未启用dora参数训练Qwen2-7B-instruct，加载检查点进行对话的显存占用为18G左右，如下图： no dora

启用dora参数训练，加载检查点进行对话，显存占用异常的高，约为39G，如下图： dora ckpt

推理的显存占用甚至都比训练时的显存占用还要高，dora训练Qwen2-7B-instruct时大约占用34G显存，如下图： dora train

Others

No response

hiyouga / LLaMA-Factory