Open zhuzhiwei88 opened 1 month ago
本地部署的deepseek-coder-33b,两块RTX A6000 48G的显卡 python -m vllm.entrypoints.openai.api_server --model /home/superadmin/coder33b --trust-remote-code --tensor-parallel-size=2 --served-model-name=deepseek-coder 启动后调用/v1/completions接口获取推理结果,但是效率极低,平均15tokens/s,如图
有人遇到过吗,如何解决有大佬指教吗
本地部署的deepseek-coder-33b,两块RTX A6000 48G的显卡 python -m vllm.entrypoints.openai.api_server --model /home/superadmin/coder33b --trust-remote-code --tensor-parallel-size=2 --served-model-name=deepseek-coder 启动后调用/v1/completions接口获取推理结果,但是效率极低,平均15tokens/s,如图![image](https://github.com/deepseek-ai/DeepSeek-Coder/assets/18474897/b37e19c0-66b1-4410-bd00-1a4ed6e17243)
有人遇到过吗,如何解决有大佬指教吗