Closed gggdroa closed 6 months ago
想开多个并发测试。使用fastapi
但是启动命令加了worker但不起效果。 cpu占用100%,GPU占用一半左右 会是哪里的问题呢? 模型支持多线程吗?是不是还不支持多并发?
模型本身没有并发的说法,但是demo是没有多并发的,你可以用vllm这些框架自己写加速
写加速是加速推理吧。比如同一秒5个用户使用。还是队列形式?等待一个完成再执行下一个么?并不是同时的哇?
batch推理就是瞬间并发咯,不然就是队列
想开多个并发测试。使用fastapi
但是启动命令加了worker但不起效果。 cpu占用100%,GPU占用一半左右 会是哪里的问题呢? 模型支持多线程吗?是不是还不支持多并发?