Closed hangzeli08 closed 1 year ago
请问一下启动脚本里是5e-5,请问正式训练就是这个参数吗,还是应该调大点或者调小点,如果发现效果不好的话,原语言模型功能丧失的话应该调大点还是调小点啊~
您好,是的,原语言模型能力丧失是一个对于模型训练挺常见的问题,在当下也是正在研究的方向之一,当前建议lora微调,或是在训练集中添加一下原语言模型的训练预料(通用域语料)实现一种平衡
请问一下启动脚本里是5e-5,请问正式训练就是这个参数吗,还是应该调大点或者调小点,如果发现效果不好的话,原语言模型功能丧失的话应该调大点还是调小点啊~