💡 vllm已经支持流水线并行啦（pipeline parallel），可以极大增加吞吐量，作者可否增加一下vllm的pipeline parallel支持

4/26/2024

vllm已经支持流水线并行啦（pipeline parallel），可以极大增加吞吐量，作者可否增加一下vllm的pipeline parallel支持

对于整个集群而言pipeline parallel可以增大吞吐量，是非常关键的指标。vllm的新版本也支持pipeline parallel了，希望作者能更新一下API

--pipeline-parallel-size (-pp) ：流水线并行阶段的数量。 --tensor-parallel-size (-tp) ：张量并行副本数量。

会影响单个推理的延迟

No response

xusenlinzy / api-for-open-llm