hiyouga / ChatGLM-Efficient-Tuning

Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调
Apache License 2.0
3.66k stars 471 forks source link

请问如何制作自己的数据集? #376

Closed andyzhou1982 closed 1 year ago

andyzhou1982 commented 1 year ago

自己有几百M的文档,就像产品说明书那种的txt和doc文件,如何快速的把这些文档制作成 { "instruction": "", "input": "", "output": "" } 这样的问答格式呢?有大佬能够给出一点思路吗,不想纯手工录入

codemayq commented 1 year ago

可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。

andyzhou1982 commented 1 year ago

可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。

谢谢建议,langchain-chatGLM这个项目我也研究过一段时间,感觉有些功能不完善,比如向量数据库只能新增不能修改和删除,所以实用性还不是很高。 用GPT抽取问答对的原理是什么?git上有实际使用的项目吗?

ShuangLyu commented 1 year ago

首先你需要把你的文档加载后切分成段落或者句子,可以用gpt或者其他较为成熟、开源的LLM对种子指令构造数据集

codemayq commented 1 year ago

可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。

谢谢建议,langchain-chatGLM这个项目我也研究过一段时间,感觉有些功能不完善,比如向量数据库只能新增不能修改和删除,所以实用性还不是很高。 用GPT抽取问答对的原理是什么?git上有实际使用的项目吗?

gpt抽取问答对的方法就是自己写prompt的问题哈,没有其他项目了。当然把文档先分句分段预处理好是必要的。