训练到10B tokens 时loss就收敛了无法下降

TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.

https://tencentarc.github.io/LLaMA-Pro/

Apache License 2.0

482 stars 35 forks source link

Closed bestpredicts closed 5 months ago

bestpredicts commented 5 months ago

loss

使用的源码的配置将qwen32层扩展到40层，冻结原始32层进行增量预训练，目前看上去到20k step左右 loss就无法继续下降了。对比直接在qwen上面增量预训练依然在下降。

bestpredicts commented 5 months ago

大概率是学习率的问题论文里面给的2e-4的学习率会导致loss很早就无法收敛