HKUDS / LightRAG

"LightRAG: Simple and Fast Retrieval-Augmented Generation"
https://arxiv.org/abs/2410.05779
MIT License
9.22k stars 1.13k forks source link

不断向图中insert文本时会死机,跑一会就死机,100%复现,不知道官方测试有没有这个问题 #281

Open wangtianqi1993 opened 1 week ago

wangtianqi1993 commented 1 week ago

有几个文本文件,每次串行读100k然后 调用insert接口,llm调用的是外部api,在插入的过程中cpu利用率到了100%,跑着跑着就 死机了。 参数设置:chunk_size=1200, llm_model_max_async = 8, embedding_func_max_async = 8 是不是在向图中插入节点或者去节点去重时并发过大?或者时堆栈溢出了

LarFii commented 6 days ago

目前我们没有遇到这个问题,我们目前测试的最大的数据集是Legal,包含94个文本文件,token总数为500w。

Sucran commented 5 days ago

跑着跑着死机,应该是只使用cpu的时候,有太多数据需要插入向量数据库时出现的。cpu满负荷了,我在自己mac上也有遇到过,在issue #212 有提到说尽量使用gpu,这样会快点,条件有限的话也没办法,可以适当地降低embedding的并发数也可以。llm的并发数基本不太影响cpu的使用率。 @wangtianqi1993

wangtianqi1993 commented 4 days ago

212

多谢解答,我是在4090服务器上跑的,开始emb与llm都部署在本地gpu上,跑一段时间就会死机,怀疑是llm对显卡利用过高,所以换成了外部llm api+ 本地gpu 上的 emb模型,看看降速跑能不能解决问题 ,调用外部llm api 处理过程就很慢了,但是过程中还是会死机, 那就可能像你说的那样 插入数据库时满负荷了,我再看看调整下参数 @Sucran