OpenBMB / MiniCPM

MiniCPM-2B: An end-side LLM outperforming Llama2-13B.
Apache License 2.0
4.38k stars 313 forks source link

[继续预训练的学习策略] #137

Closed mynewstart closed 1 hour ago

mynewstart commented 1 month ago

您好, 请问如果想在你们模型的基础上继续在某个领域的数据(大概20B)上继续预训练,是不是可以在你们退火后的学习率1e-3的基础上使用WSD的学习策略?是将1e-3设置为最大学习率,然后运用你们的公式根据步数调整LR吗?

LDLINGLINGLING commented 1 week ago

个人认为应该在官网找到stable阶段最后的checkpints,然后考虑WSD的持续训练和退火训练。