Closed bestpredicts closed 5 months ago
使用的源码的配置将qwen32层扩展到40层,冻结原始32层进行增量预训练,目前看上去到20k step左右 loss就无法继续下降了。对比直接在qwen上面增量预训练依然在下降。
大概率是学习率的问题 论文里面给的2e-4的学习率 会导致loss很早就无法收敛
使用的源码的配置将qwen32层扩展到40层,冻结原始32层进行增量预训练,目前看上去到20k step左右 loss就无法继续下降了。对比直接在qwen上面增量预训练依然在下降。