gradio和vllm的结合问题

LlamaFamily / Llama-Chinese

Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

https://llama.family

14k stars 1.26k forks source link

gradio和vllm的结合问题 #331

Open Haoran1234567 opened 6 months ago

Haoran1234567 commented 6 months ago

您好，感谢社区给出的很好的示例。我看到gradio和vllm分布式加速推理是放到了两个地方来示例。如果我想要用gradio来充当大模型的访问界面，同时我还想要用vllm来给部署的大模型加速，这个问题该如何解决？我想到的方法是分别启动两个服务，然后从gradio服务里边去调用vllm服务的api作为处理函数，我这样做对吗，两者结合的标准范式是什么呢