THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.39k stars 1.55k forks source link

openai_api.py 支持并发调用,或者怎么实现并发调用 #1216

Closed qinzhenyi1314 closed 5 months ago

qinzhenyi1314 commented 5 months ago

Feature request / 功能建议

openai_api.py 支持并发调用,或者怎么实现并发调用

自己想到的是构建成docker镜像,然后通过启动不同的容器,然后加上nginx进行负载均衡,但是不知道是不是主流的办法 我看代码里uvicorn.run里 workers=1 有通过改动 workers实现的方法吗?这样就不用使用容器化的技术,希望支持或者提供下思路 自己尝试workers=2时看到的问题 1、当前的model、tokenizer、embedding_model 都只加载了一次 2、显卡无法分别指定

Motivation / 动机

有两块显卡,通过并发程调用,更高效的利用显卡

Your contribution / 您的贡献

希望支持或者提供下思路

zRzRzRzRzRzRzR commented 5 months ago

没有做这个功能,这个需要啊自己写,具体逻辑是检测显卡占用分配模型,如果一张卡占用很多就给另一个模型,两张卡同时加载完整的模型