Open kalida-one opened 11 months ago
我仔细阅读了技术报告,发现没有仓库中提到的lora训练的细节,尤其是学习率这里,为什么全参数量微调学习率是5e-5,远高于LoRA训练的1e-5?我很好奇会带来什么样的表现,希望能够得到回复。
我仔细阅读了技术报告,发现没有仓库中提到的lora训练的细节,尤其是学习率这里,为什么全参数量微调学习率是5e-5,远高于LoRA训练的1e-5?我很好奇会带来什么样的表现,希望能够得到回复。