openai_api.py 支持并发调用，或者怎么实现并发调用

Feature request / 功能建议

自己想到的是构建成docker镜像，然后通过启动不同的容器，然后加上nginx进行负载均衡，但是不知道是不是主流的办法我看代码里uvicorn.run里 workers=1 有通过改动 workers实现的方法吗？这样就不用使用容器化的技术，希望支持或者提供下思路自己尝试workers=2时看到的问题 1、当前的model、tokenizer、embedding_model 都只加载了一次 2、显卡无法分别指定

Motivation / 动机

有两块显卡，通过并发程调用，更高效的利用显卡

Your contribution / 您的贡献

希望支持或者提供下思路

THUDM / ChatGLM3

openai_api.py 支持并发调用，或者怎么实现并发调用 #1216

Feature request / 功能建议

Motivation / 动机

Your contribution / 您的贡献