THUDM / ChatGLM-6B

ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型
Apache License 2.0
40.09k stars 5.16k forks source link

数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练?[Feature] <title> #1002

Open dizhenx opened 1 year ago

dizhenx commented 1 year ago

Is your feature request related to a problem? Please describe.

数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练? 比如我有一个法条的txt文档,一万字左右。我想塞进去直接训练,让模型理解。然后对模型提问相关的问题,让他回答法条问题。 类似于chatpdf这种,但是跟chatpdf不一样,chatpdf是不用训练,直接embedding加知识库检索的方式。我这里能否直接塞进去一篇文档进行训练,让他达到chatpdf的效果?

Solutions

数据集的格式都是输入问答对的方式,能不能直接输入一篇文档作为数据集来微调训练? 比如我有一个法条的txt文档,一万字左右。我想塞进去直接训练,让模型理解。然后对模型提问相关的问题,让他回答法条问题。 类似于chatpdf这种,但是跟chatpdf不一样,chatpdf是不用训练,直接embedding加知识库检索的方式。我这里能否直接塞进去一篇文档进行训练,让他达到chatpdf的效果?

Additional context

No response

skf15963 commented 1 year ago

可以尝试了解一下 chatglm + langchain

dizhenx commented 1 year ago

可以尝试了解一下 chatglm + langchain

这个我试过,他这个是检索文档,不是把文档放进去训练

TE-Raven commented 1 year ago

训练不好整吧,可能的解决方案是langchain和多轮对话先输入文本,再提问,后者glm6b效果不好

RuiNov1st commented 1 year ago

大佬你解决了吗,我最近也想做这个东西

tomcat123a commented 1 year ago

https://github.com/shibing624/MedicalGPT 参考这个项目,预训练,指令微调,rm模型训练,ppo都有现成的