Closed andyzhou1982 closed 1 year ago
可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。
可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。
谢谢建议,langchain-chatGLM这个项目我也研究过一段时间,感觉有些功能不完善,比如向量数据库只能新增不能修改和删除,所以实用性还不是很高。 用GPT抽取问答对的原理是什么?git上有实际使用的项目吗?
首先你需要把你的文档加载后切分成段落或者句子,可以用gpt或者其他较为成熟、开源的LLM对种子指令构造数据集
可以尝试使用 GPT做信息抽取和总结,让它从非结构化文档里抽取问答对。 不过你这个情况,可能更建议使用langchain + 已有的成熟模型来做文档问答,而不是二次训练。
谢谢建议,langchain-chatGLM这个项目我也研究过一段时间,感觉有些功能不完善,比如向量数据库只能新增不能修改和删除,所以实用性还不是很高。 用GPT抽取问答对的原理是什么?git上有实际使用的项目吗?
gpt抽取问答对的方法就是自己写prompt的问题哈,没有其他项目了。当然把文档先分句分段预处理好是必要的。
自己有几百M的文档,就像产品说明书那种的txt和doc文件,如何快速的把这些文档制作成 { "instruction": "", "input": "", "output": "" } 这样的问答格式呢?有大佬能够给出一点思路吗,不想纯手工录入