数据集的格式都是输入问答对的方式，能不能直接输入一篇文档作为数据集来微调训练？[Feature] <title>

THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

Apache License 2.0

40.09k stars 5.16k forks source link

Is your feature request related to a problem? Please describe.

数据集的格式都是输入问答对的方式，能不能直接输入一篇文档作为数据集来微调训练？比如我有一个法条的txt文档，一万字左右。我想塞进去直接训练，让模型理解。然后对模型提问相关的问题，让他回答法条问题。类似于chatpdf这种，但是跟chatpdf不一样，chatpdf是不用训练，直接embedding加知识库检索的方式。我这里能否直接塞进去一篇文档进行训练，让他达到chatpdf的效果？

Solutions

Additional context

No response

THUDM / ChatGLM-6B

数据集的格式都是输入问答对的方式，能不能直接输入一篇文档作为数据集来微调训练？[Feature] <title> #1002

Is your feature request related to a problem? Please describe.

Solutions

Additional context