TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.
https://tencentarc.github.io/LLaMA-Pro/
Apache License 2.0
482 stars 35 forks source link

训练到10B tokens 时loss就收敛了 无法下降 #29

Closed bestpredicts closed 5 months ago

bestpredicts commented 5 months ago

loss

使用的源码的配置将qwen32层扩展到40层,冻结原始32层进行增量预训练,目前看上去到20k step左右 loss就无法继续下降了。对比直接在qwen上面增量预训练依然在下降。

bestpredicts commented 5 months ago

大概率是学习率的问题 论文里面给的2e-4的学习率 会导致loss很早就无法收敛