知识库检索速度很慢，是不是向量和重拍没有使用GPU - Githubissues

netease-youdao / QAnything

Question and Answer based on Anything.

https://qanything.ai

GNU Affero General Public License v3.0

11.92k stars 1.16k forks source link

知识库检索速度很慢，是不是向量和重拍没有使用GPU #561

Open myboyliu2025 opened 3 weeks ago

myboyliu2025 commented 3 weeks ago

知识库检索速度很慢，大概每次20s,是不是向量和重排没有使用GPU

myboyliu2025 commented 3 weeks ago

注：preprocess: 0.02s + condense_q_chain: 0.00s + retriever_search: 0.29s + web_search: 0.00s + rerank: 20.81s + reprocess: 0.01s + llm_first_return: 2.89s = first_return: 24.14s + llm_completed：2.18s + obtain_images_time: 1.09s = chat_completed：27.41s

myboyliu2025 commented 3 weeks ago

rerank: 20.81s 这个模型耗时最长。

zihan987 commented 3 weeks ago

我用的是deepseek的api，然后用的是openai gpu的那个脚本。以为是gpu上做检索，结果发现没啥区别。。。。

zhanglt commented 2 weeks ago

你去看看你的pytorch版本是不是GPU版本

prettyprettyboy commented 1 week ago

感觉将环境的onnx runtime改为onnx runtime-gpu后将这两个模型的启动方式都改成gpu，就可以在gpu上运行了。这两个模型的异步运行后端代码是不是可以直接用

gjfmlj commented 1 week ago

老版本跑在gpu上没有问题，2.0只能运行在cpu上慢的要死，怀疑是故意这样设定，非常恶心

prettyprettyboy commented 1 week ago

尝试了，在原有镜像上添加CUDA和cudnn后，用他那个异步的embedding和rerank代码就很快，并发也不错。感觉就是故意的哈哈哈哈

EurekaTesla commented 1 week ago

尝试了，在原有镜像上添加CUDA和cudnn后，用他那个异步的embedding和rerank代码就很快，并发也不错。感觉就是故意的哈哈哈哈

我最近也在研究这个，能向您请教一下具体实现的步骤和设置吗？