shibing624 / textgen

TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。
Apache License 2.0
937 stars 109 forks source link

如果我想训练一个细分领域的知识库,请问 训练数据 要按什么格式准备?您的例子给的是 纠正拼写错误,我们 知识库 训练需要改动哪些地方才能正确训练? #18

Closed alexhmyang closed 1 year ago

alexhmyang commented 1 year ago

1 如果我想训练一个细分领域的知识库,请问 训练数据 要按什么格式准备?您的例子给的是 纠正拼写错误,我们 知识库 训练需要改动哪些地方才能正确训练?

2 为训练的模型给出的结果 我如果想纠正,这个通过训练可以实现么? 纠正的训练标注数据最少需要提供几条?还是 一条就可以?需要训练多少step?

3 我们p-tune 发现 chatGLB污染很严重,整个模型训练后完全不能用了,您的lora训练结果 污染情况如何?需要注意些什么?

非常感谢,希望能深入交流

shibing624 commented 1 year ago

1 按纠错的测试集格式准备就行,参考:instruction, input_text, output_text

2 可以实现,最少1千条,1个epoch,具体参数基于train_data_set 调整;

3 lora训练污染小,1)原始模型冻结,lora参数独立训练,不影响原始模型权重;2)我测试的case多了后,发现lora会影响原始模型的生成效果,整体而言模型能力变窄了,特别是对话方面,和推理能力上。

我觉得微调模型更适用于领域内,而且要求微调的数据质量比预训练的样本更高,才能取得正向效果。