Closed DuBaiSheng closed 1 year ago
你数据是不是不多?
你数据是不是不多?
我的训练是做总结提取的那种,有1000条训练样本。lora 训练方式和ptuning 训练方式,对数据的要求差距很大嘛?
不知道了,这个loss很难下降:
目前,我这边也给不到什么好的建议。
你数据是不是不多?
不知道了,这个loss很难下降:
- 可能是因为数据分布和原始的分布差异过大的问题。
- 可能是数据量不够的问题。
目前,我这边也给不到什么好的建议。
好的,谢谢
使用自己的数据集, 在官方的chatglm2下进行ptuning 微调时,loss 正常收敛。使用这个lora训练的时候,loss 出现不收敛。 调整lora_r 32,16 都不收敛
使用lora训练参数如下: LR=2e-2 LORA_R=16 python main.py \ --do_train \ --train_file $CHAT_TRAIN_DATA \ --validation_file $CHAT_VAL_DATA \ --preprocessing_num_workers 10 \ --prompt_column prompt \ --response_column response \ --overwrite_cache \ --model_name_or_path /data/model/chatglm2-6b \ --output_dir $CHECKPOINT_NAME-$LR-$LORA_R \ --overwrite_output_dir \ --max_source_length 1024 \ --max_target_length 128 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 16 \ --predict_with_generate \ --max_steps 2000 \ --logging_steps 10 \ --save_steps 100 \ --learning_rate $LR \ --lora_r $LORA_R \ --model_parallel_mode False
loss 从19渐渐减到14,然后又升回19,然后又减,就一直震荡不收敛。 调整过几个lora_r,lr, 都差不多。