请问如何制作自己的数据集？

hiyouga / ChatGLM-Efficient-Tuning

Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

Apache License 2.0

3.66k stars 471 forks source link

请问如何制作自己的数据集？ #376

Closed andyzhou1982 closed 1 year ago

andyzhou1982 commented 1 year ago

自己有几百M的文档，就像产品说明书那种的txt和doc文件，如何快速的把这些文档制作成 { "instruction": "", "input": "", "output": "" } 这样的问答格式呢？有大佬能够给出一点思路吗，不想纯手工录入

codemayq commented 1 year ago

可以尝试使用 GPT做信息抽取和总结，让它从非结构化文档里抽取问答对。不过你这个情况，可能更建议使用langchain + 已有的成熟模型来做文档问答，而不是二次训练。

andyzhou1982 commented 1 year ago

可以尝试使用 GPT做信息抽取和总结，让它从非结构化文档里抽取问答对。不过你这个情况，可能更建议使用langchain + 已有的成熟模型来做文档问答，而不是二次训练。

谢谢建议，langchain-chatGLM这个项目我也研究过一段时间，感觉有些功能不完善，比如向量数据库只能新增不能修改和删除，所以实用性还不是很高。用GPT抽取问答对的原理是什么？git上有实际使用的项目吗？

ShuangLyu commented 1 year ago

首先你需要把你的文档加载后切分成段落或者句子，可以用gpt或者其他较为成熟、开源的LLM对种子指令构造数据集

codemayq commented 1 year ago

可以尝试使用 GPT做信息抽取和总结，让它从非结构化文档里抽取问答对。不过你这个情况，可能更建议使用langchain + 已有的成熟模型来做文档问答，而不是二次训练。

谢谢建议，langchain-chatGLM这个项目我也研究过一段时间，感觉有些功能不完善，比如向量数据库只能新增不能修改和删除，所以实用性还不是很高。用GPT抽取问答对的原理是什么？git上有实际使用的项目吗？

gpt抽取问答对的方法就是自己写prompt的问题哈，没有其他项目了。当然把文档先分句分段预处理好是必要的。