labring / FastGPT

FastGPT is a knowledge-based platform built on the LLMs, offers a comprehensive suite of out-of-the-box capabilities such as data processing, RAG retrieval, and visual AI workflow orchestration, letting you easily develop and deploy complex question-answering systems without the need for extensive setup or configuration.
https://tryfastgpt.ai
Other
17.5k stars 4.7k forks source link

知识库存量达到百万条时,知识库导入速度下降严重 #1033

Closed yanjian1978 closed 5 months ago

yanjian1978 commented 7 months ago

你的版本

问题描述 知识库存量达到百万条时,知识库导入速度下降严重

复现步骤 知识库导入功能: 正常情况下:当知识库存量小时 m3e-base 向量算法,用3090显卡启动m3e-base 接口 当知识库存量小时,1万条知识几分钟内导完,3090 上m3e-base 基本上跑50%功耗 异常变慢:当知识库已导入量达到百万时 当知识库已导入量达到百万时, 1万条知识一个小时也导不完, fastgpt 应用mongo的CPU利用率非常高,3090上m3e-base 非常空

分析mongo: "findAndModify" : "dataset.trainings", "keysExamined" : 1261763, "docsExamined" : 0, 感觉索引还是生效的,但就是慢

预期结果

相关截图

c121914yu commented 7 months ago

数据库阻塞了吧,是不是数据库规格太小

yanjian1978 commented 7 months ago

如果单文件行数达到百万级时,速度极慢,但和一共多少个知识库无关

Arshjzhu commented 6 months ago

同样的问题

wufxgtihub123 commented 5 months ago

数据库阻塞了吧,是不是数据库规格太小

大佬,请问这种卡住的问题该怎么解决呢?需要增加数据库规格吗?

c121914yu commented 5 months ago

数据库阻塞了吧,是不是数据库规格太小

大佬,请问这种卡住的问题该怎么解决呢?需要增加数据库规格吗?

一百万数据,还是并发竞争查改。 这种改进一般就是,索引优化(代码里已经有了,可以看看有没有生效) 代码逻辑优化或者增加规格。 另外就是优化部署,一般 docker 的数据库都比较慢,要么是 kubeblock 集群库,要么可以裸机装。