FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
7.04k stars 513 forks source link

关于构建自己的RAG的流程咨询 #890

Open lower01 opened 3 months ago

lower01 commented 3 months ago

您好,如果我想做自己的RAG应用,目前的流程是不是主要以下几个步骤:

1.基于自己的数据,构建query:pos:neg形式的三元组数据,对embedding模型bge-larger-zh进行微调;

2.基于自己的数据,构建类似于示例中维基百科形式的jsonl数据,实际只要有title和text这两列就够了,构建一个项目中提到的data数据集文件夹相同的目录结构,将数据文件存放于data/dataset中,执行数据准备阶段命令,基于微调后的embedding模型在对应文件夹中生成那些数据文件;

3.运行run.py

就可以正确执行自己的RAG应用了吗?

然后关于大模型,我看项目中是使用了OPENAPI KEY的接口,如果我是下载了Llama3-Instruct模型权重文件到本地,该如何修改tool.py文件或其它什么地方,让其能够应用到我本地的llama3呢?

感谢您的指导!

staoxiao commented 3 months ago

@lower01 , we just provide a toy example, and recommend using some more mature tools, such as LangChain, LlamaIndex and langchain-chatchat.