Open guanidine opened 6 months ago
您好,您提供的数据集中,DISC-Law-SFT-Triplet 包含 input,output 和 reference 三个部分。在用 LLaMA Efficient Tuning 微调时,请问 reference 是如何加入训练的呢?我目前是把它作为 system 输入,或者说这部分应该直接拼接到 input 中?
input
output
reference
如技术报告里说的,reference作为context 拼在input中作为模型输入
明白了,谢谢。 顺便想请教一下,您README中给出的LoRA微调的指令,最终得到的结果如何?我在Baichuan2-7B和Qwen1.5-7B两个个模型上分别尝试了LoRA微调,学习率等超参没变,benchmark跑出来比微调前的原始模型要差不少。请问您有在这些模型上测试过吗?
您好,您提供的数据集中,DISC-Law-SFT-Triplet 包含
input
,output
和reference
三个部分。在用 LLaMA Efficient Tuning 微调时,请问reference
是如何加入训练的呢?我目前是把它作为 system 输入,或者说这部分应该直接拼接到 input 中?