THUDM / ChatGLM3

ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型
Apache License 2.0
13.44k stars 1.56k forks source link

可结合使用fastapi多线程吗? #1151

Closed gggdroa closed 6 months ago

gggdroa commented 6 months ago

想开多个并发测试。使用fastapi

但是启动命令加了worker但不起效果。 cpu占用100%,GPU占用一半左右 会是哪里的问题呢? 模型支持多线程吗?是不是还不支持多并发?

zRzRzRzRzRzRzR commented 6 months ago

模型本身没有并发的说法,但是demo是没有多并发的,你可以用vllm这些框架自己写加速

gggdroa commented 6 months ago

模型本身没有并发的说法,但是demo是没有多并发的,你可以用vllm这些框架自己写加速

写加速是加速推理吧。比如同一秒5个用户使用。还是队列形式?等待一个完成再执行下一个么?并不是同时的哇?

zRzRzRzRzRzRzR commented 6 months ago

batch推理就是瞬间并发咯,不然就是队列