Closed alexhmyang closed 1 year ago
1 按纠错的测试集格式准备就行,参考:instruction, input_text, output_text
2 可以实现,最少1千条,1个epoch,具体参数基于train_data_set 调整;
3 lora训练污染小,1)原始模型冻结,lora参数独立训练,不影响原始模型权重;2)我测试的case多了后,发现lora会影响原始模型的生成效果,整体而言模型能力变窄了,特别是对话方面,和推理能力上。
我觉得微调模型更适用于领域内,而且要求微调的数据质量比预训练的样本更高,才能取得正向效果。
1 如果我想训练一个细分领域的知识库,请问 训练数据 要按什么格式准备?您的例子给的是 纠正拼写错误,我们 知识库 训练需要改动哪些地方才能正确训练?
2 为训练的模型给出的结果 我如果想纠正,这个通过训练可以实现么? 纠正的训练标注数据最少需要提供几条?还是 一条就可以?需要训练多少step?
3 我们p-tune 发现 chatGLB污染很严重,整个模型训练后完全不能用了,您的lora训练结果 污染情况如何?需要注意些什么?
非常感谢,希望能深入交流