如何进行自有数据集下finetune训练配置

THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

Apache License 2.0

4.07k stars 414 forks source link

如何进行自有数据集下finetune训练配置 #294

Open elesun2018 opened 10 months ago

elesun2018 commented 10 months ago

基于VisualGLM6B多模态大模型，进行finetune 按照readme已训练完成fewshot-data，观察到背景能力理解增强了。但是在finetune自己数据集的时候，出现了严重的过拟合，请问如何进行调教大模型训练参数需要特别注意什么，谢谢

1049451037 commented 10 months ago

是否过拟合的影响因素有很多，可训练参数的多少、数据量的大小、训练迭代次数。这些只能自己通过实验获得在你的场景下最好的配置。

elesun2018 commented 10 months ago

MODEL_TYPE="XrayGLM" MODEL_ARGS="--max_source_length 64 \ --max_target_length 256 \ --lora_rank 10\ --pre_seq_len 4" --lr-decay-style cosine \ --warmup .02 \ --checkpoint-activations \ --save-interval 3000 \ --eval-interval 10000 \ --save "./checkpoints" \ --split 1 \ --eval-iters 10 \ --eval-batch-size 4 \ --zero-stage 1 \ --lr 0.0001 \ --batch-size 4 \ --skip-init \ --fp16 \ --use_lora