为什么在Plus版本的sft中改变了Lora Rank？

nuoma commented 1 year ago

模型训练与精调

LLaMA-Plus-7B

Linux

你好，为什么在Plus版本的sft中改变了Lora Rank？我在您的report中并没有看到相关的讨论。

第一版您用了2M to 3M的SFT，第二版您用了4M to 4.3M的SFT。所以从文章中很难看出是SFT的数量导致涨点，还是Lora Rank起了作用。

麻烦可以分享一下您这么做的原因吗？谢谢！

# 请在此处粘贴依赖情况

# 请在此处粘贴运行日志

ymcui commented 1 year ago

两个原因：1）希望有更多可训练参数；2）初步实验结果r64优于r8。但至于是不是r64一定优于r8，这个没有明确结论，没有做point-to-point实验。另外，从训练效果的角度来看r64并没有比r8带来太多的负担，所以综合以上选择r64。

nuoma commented 1 year ago

好的，那是不是在预训练阶段也可以尝试干这件事情？no harm to try 谢谢解答，看来我还需要做更多的实验。

airaria commented 1 year ago

好的，那是不是在预训练阶段也可以尝试干这件事情？no harm to try 谢谢解答，看来我还需要做更多的实验。

是的，在Chinese-LLaMA-2项目中，预训练阶段的lora rank设置成了和plus模型中的一样的64

ymcui / Chinese-LLaMA-Alpaca