[继续预训练的学习策略]

OpenBMB / MiniCPM

MiniCPM3-4B: An edge-side LLM that surpasses GPT-3.5-Turbo.

Apache License 2.0

7.12k stars 453 forks source link

Closed mynewstart closed 4 months ago

mynewstart commented 5 months ago

您好，请问如果想在你们模型的基础上继续在某个领域的数据(大概20B）上继续预训练，是不是可以在你们退火后的学习率1e-3的基础上使用WSD的学习策略？是将1e-3设置为最大学习率，然后运用你们的公式根据步数调整LR吗？

LDLINGLINGLING commented 4 months ago

个人认为应该在官网找到stable阶段最后的checkpints，然后考虑WSD的持续训练和退火训练。