hiyouga / ChatGLM-Efficient-Tuning

Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调
Apache License 2.0
3.66k stars 471 forks source link

为什么glm2训练需要较大的学习率才有效 #379

Closed JingBob closed 1 year ago

JingBob commented 1 year ago

使用glm2做sft时,需要将学习率从5e-5调到1e-3才有较好效果,这个有什么讲究吗?LLM的学习率应该怎么调,有没什么经验?

codemayq commented 1 year ago
  1. 可能你的数据集太小,导致学不到东西,可以增大数据量
  2. epoch适当调大一些试一试,训练更充分

增大学习率,相当于以更大的强度去使用新样本的梯度更新模型参数,可以更快学习到新知识,但是整体效果不一定是最优的,可能会遗忘老知识。

默认的5e-5 是一个相对还正常的经验值,1e-3相当于提高了20倍。

zhanghaoie commented 1 year ago

全参微调的话需要多大的学习率合适?

xlhuang132 commented 1 year ago

全参微调的话需要多大的学习率合适?

你好,请问这个有结论吗?

JingBob commented 1 year ago

全参微调没试过,你可以自己用经验的5e-5开始试