deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself
https://coder.deepseek.com/
MIT License
5.99k stars 431 forks source link

用vllm加速推理框架 推理速度还是很慢 #161

Open zhuzhiwei88 opened 1 month ago

zhuzhiwei88 commented 1 month ago

本地部署的deepseek-coder-33b,两块RTX A6000 48G的显卡 python -m vllm.entrypoints.openai.api_server --model /home/superadmin/coder33b --trust-remote-code --tensor-parallel-size=2 --served-model-name=deepseek-coder 启动后调用/v1/completions接口获取推理结果,但是效率极低,平均15tokens/s,如图 image

有人遇到过吗,如何解决有大佬指教吗