请问全量微调的话学习率应该调大点还是调小点啊～

SCIR-HI / Med-ChatGLM

Repo for Chinese Medical ChatGLM 基于中文医学知识的ChatGLM指令微调

Apache License 2.0

968 stars 156 forks source link

Closed hangzeli08 closed 1 year ago

hangzeli08 commented 1 year ago

请问一下启动脚本里是5e-5，请问正式训练就是这个参数吗，还是应该调大点或者调小点，如果发现效果不好的话，原语言模型功能丧失的话应该调大点还是调小点啊～

s65b40 commented 1 year ago

您好，是的，原语言模型能力丧失是一个对于模型训练挺常见的问题，在当下也是正在研究的方向之一，当前建议lora微调，或是在训练集中添加一下原语言模型的训练预料（通用域语料）实现一种平衡