如果我想训练一个细分领域的知识库，请问训练数据要按什么格式准备?您的例子给的是纠正拼写错误，我们知识库训练需要改动哪些地方才能正确训练？

shibing624 / textgen

TextGen: Implementation of Text Generation models, include LLaMA, BLOOM, GPT2, BART, T5, SongNet and so on. 文本生成模型，实现了包括LLaMA，ChatGLM，BLOOM，GPT2，Seq2Seq，BART，T5，UDA等模型的训练和预测，开箱即用。

Apache License 2.0

937 stars 109 forks source link

如果我想训练一个细分领域的知识库，请问训练数据要按什么格式准备?您的例子给的是纠正拼写错误，我们知识库训练需要改动哪些地方才能正确训练？ #18

Closed alexhmyang closed 1 year ago

alexhmyang commented 1 year ago

1 如果我想训练一个细分领域的知识库，请问训练数据要按什么格式准备?您的例子给的是纠正拼写错误，我们知识库训练需要改动哪些地方才能正确训练？

2 为训练的模型给出的结果我如果想纠正，这个通过训练可以实现么？纠正的训练标注数据最少需要提供几条？还是一条就可以？需要训练多少step?

3 我们p-tune 发现 chatGLB污染很严重，整个模型训练后完全不能用了，您的lora训练结果污染情况如何？需要注意些什么？

非常感谢，希望能深入交流

shibing624 commented 1 year ago

1 按纠错的测试集格式准备就行，参考：instruction, input_text, output_text

2 可以实现，最少1千条，1个epoch，具体参数基于train_data_set 调整；

3 lora训练污染小，1）原始模型冻结，lora参数独立训练，不影响原始模型权重；2）我测试的case多了后，发现lora会影响原始模型的生成效果，整体而言模型能力变窄了，特别是对话方面，和推理能力上。

我觉得微调模型更适用于领域内，而且要求微调的数据质量比预训练的样本更高，才能取得正向效果。

shibing624 / textgen

如果我想训练一个细分领域的知识库，请问 训练数据 要按什么格式准备?您的例子给的是 纠正拼写错误，我们 知识库 训练需要改动哪些地方才能正确训练？ #18

如果我想训练一个细分领域的知识库，请问训练数据要按什么格式准备?您的例子给的是纠正拼写错误，我们知识库训练需要改动哪些地方才能正确训练？ #18