用vllm加速推理框架推理速度还是很慢

deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself

https://coder.deepseek.com/

MIT License

5.99k stars 431 forks source link

用vllm加速推理框架推理速度还是很慢 #161

Open zhuzhiwei88 opened 1 month ago

zhuzhiwei88 commented 1 month ago

本地部署的deepseek-coder-33b，两块RTX A6000 48G的显卡 python -m vllm.entrypoints.openai.api_server --model /home/superadmin/coder33b --trust-remote-code --tensor-parallel-size=2 --served-model-name=deepseek-coder 启动后调用/v1/completions接口获取推理结果，但是效率极低，平均15tokens/s，如图

有人遇到过吗，如何解决有大佬指教吗

deepseek-ai / DeepSeek-Coder

用vllm加速推理框架 推理速度还是很慢 #161

用vllm加速推理框架推理速度还是很慢 #161