Closed JingBob closed 1 year ago
使用glm2做sft时,需要将学习率从5e-5调到1e-3才有较好效果,这个有什么讲究吗?LLM的学习率应该怎么调,有没什么经验?
增大学习率,相当于以更大的强度去使用新样本的梯度更新模型参数,可以更快学习到新知识,但是整体效果不一定是最优的,可能会遗忘老知识。
默认的5e-5 是一个相对还正常的经验值,1e-3相当于提高了20倍。
全参微调的话需要多大的学习率合适?
你好,请问这个有结论吗?
全参微调没试过,你可以自己用经验的5e-5开始试
使用glm2做sft时,需要将学习率从5e-5调到1e-3才有较好效果,这个有什么讲究吗?LLM的学习率应该怎么调,有没什么经验?