为什么glm2训练需要较大的学习率才有效

hiyouga / ChatGLM-Efficient-Tuning

Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

Apache License 2.0

3.67k stars 471 forks source link

Closed JingBob closed 1 year ago

JingBob commented 1 year ago

使用glm2做sft时，需要将学习率从5e-5调到1e-3才有较好效果，这个有什么讲究吗？LLM的学习率应该怎么调，有没什么经验？

codemayq commented 1 year ago

增大学习率，相当于以更大的强度去使用新样本的梯度更新模型参数，可以更快学习到新知识，但是整体效果不一定是最优的，可能会遗忘老知识。

默认的5e-5 是一个相对还正常的经验值，1e-3相当于提高了20倍。

zhanghaoie commented 1 year ago

全参微调的话需要多大的学习率合适？

xlhuang132 commented 1 year ago

全参微调的话需要多大的学习率合适？

你好，请问这个有结论吗？

JingBob commented 1 year ago

全参微调没试过，你可以自己用经验的5e-5开始试