Closed CaptainLeezz closed 7 months ago
4/26/2024
vllm已经支持流水线并行啦(pipeline parallel),可以极大增加吞吐量,作者可否增加一下vllm的pipeline parallel支持
No response
对于整个集群而言pipeline parallel可以增大吞吐量,是非常关键的指标。vllm的新版本也支持pipeline parallel了,希望作者能更新一下API
--pipeline-parallel-size (-pp) :流水线并行阶段的数量。 --tensor-parallel-size (-tp) :张量并行副本数量。
会影响单个推理的延迟
起始日期 | Start Date
4/26/2024
实现PR | Implementation PR
vllm已经支持流水线并行啦(pipeline parallel),可以极大增加吞吐量,作者可否增加一下vllm的pipeline parallel支持
相关Issues | Reference Issues
No response
摘要 | Summary
对于整个集群而言pipeline parallel可以增大吞吐量,是非常关键的指标。vllm的新版本也支持pipeline parallel了,希望作者能更新一下API
基本示例 | Basic Example
--pipeline-parallel-size (-pp):流水线并行阶段的数量。
--tensor-parallel-size (-tp) :张量并行副本数量。
缺陷 | Drawbacks
会影响单个推理的延迟
未解决问题 | Unresolved questions
No response