IEIT-Yuan / Yuan-2.0

Yuan 2.0 Large Language Model
Other
678 stars 85 forks source link

“用 TensorRT-LLM & Triton Server 部署2B模型”请问这样部署是同步接口吗?貌似不能异步调用? #132

Open dongteng opened 6 months ago

dongteng commented 6 months ago

同时请求会发生堵塞,一个请求结束之后另一个才出答案

zhaoxudong01 commented 6 months ago

目前还不支持inflight-batching,我们会持续更新