netease-youdao / QAnything

Question and Answer based on Anything.
https://qanything.ai
GNU Affero General Public License v3.0
11.92k stars 1.16k forks source link

知识库检索速度很慢,是不是向量和重拍没有使用GPU #561

Open myboyliu2025 opened 3 weeks ago

myboyliu2025 commented 3 weeks ago

知识库检索速度很慢,大概每次20s,是不是向量和重排没有使用GPU image

myboyliu2025 commented 3 weeks ago

注:preprocess: 0.02s + condense_q_chain: 0.00s + retriever_search: 0.29s + web_search: 0.00s + rerank: 20.81s + reprocess: 0.01s + llm_first_return: 2.89s = first_return: 24.14s + llm_completed:2.18s + obtain_images_time: 1.09s = chat_completed:27.41s

myboyliu2025 commented 3 weeks ago

rerank: 20.81s 这个模型耗时最长。

zihan987 commented 3 weeks ago

我用的是deepseek的api,然后用的是openai gpu的那个脚本。以为是gpu上做检索,结果发现没啥区别。。。。

zhanglt commented 2 weeks ago

你去看看你的pytorch版本是不是GPU版本

prettyprettyboy commented 1 week ago

感觉将环境的onnx runtime改为onnx runtime-gpu后将这两个模型的启动方式都改成gpu,就可以在gpu上运行了。这两个模型的异步运行后端代码是不是可以直接用

gjfmlj commented 1 week ago

老版本跑在gpu上没有问题,2.0只能运行在cpu上慢的要死,怀疑是故意这样设定,非常恶心

prettyprettyboy commented 1 week ago

尝试了,在原有镜像上添加CUDA和cudnn后,用他那个异步的embedding和rerank代码就很快,并发也不错。感觉就是故意的哈哈哈哈

EurekaTesla commented 1 week ago

尝试了,在原有镜像上添加CUDA和cudnn后,用他那个异步的embedding和rerank代码就很快,并发也不错。感觉就是故意的哈哈哈哈

我最近也在研究这个,能向您请教一下具体实现的步骤和设置吗?