SCIR-HI / Med-ChatGLM

Repo for Chinese Medical ChatGLM 基于中文医学知识的ChatGLM指令微调
Apache License 2.0
968 stars 156 forks source link

请问全量微调的话学习率应该调大点还是调小点啊~ #19

Closed hangzeli08 closed 1 year ago

hangzeli08 commented 1 year ago

请问一下启动脚本里是5e-5,请问正式训练就是这个参数吗,还是应该调大点或者调小点,如果发现效果不好的话,原语言模型功能丧失的话应该调大点还是调小点啊~

s65b40 commented 1 year ago

您好,是的,原语言模型能力丧失是一个对于模型训练挺常见的问题,在当下也是正在研究的方向之一,当前建议lora微调,或是在训练集中添加一下原语言模型的训练预料(通用域语料)实现一种平衡