LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14k stars 1.26k forks source link

gradio和vllm的结合问题 #331

Open Haoran1234567 opened 6 months ago

Haoran1234567 commented 6 months ago

您好,感谢社区给出的很好的示例。我看到gradio和vllm分布式加速推理是放到了两个地方来示例。如果我想要用gradio来充当大模型的访问界面,同时我还想要用vllm来给部署的大模型加速,这个问题该如何解决?我想到的方法是分别启动两个服务,然后从gradio服务里边去调用vllm服务的api作为处理函数,我这样做对吗,两者结合的标准范式是什么呢