xusenlinzy / api-for-open-llm

Openai style api for open large language models, using LLMs just as chatgpt! Support for LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口
Apache License 2.0
2.16k stars 252 forks source link

💡 vllm已经支持流水线并行啦(pipeline parallel),可以极大增加吞吐量,作者可否增加一下vllm的pipeline parallel支持 #269

Closed CaptainLeezz closed 2 months ago

CaptainLeezz commented 2 months ago

起始日期 | Start Date

4/26/2024

实现PR | Implementation PR

vllm已经支持流水线并行啦(pipeline parallel),可以极大增加吞吐量,作者可否增加一下vllm的pipeline parallel支持

相关Issues | Reference Issues

No response

摘要 | Summary

对于整个集群而言pipeline parallel可以增大吞吐量,是非常关键的指标。vllm的新版本也支持pipeline parallel了,希望作者能更新一下API

基本示例 | Basic Example

--pipeline-parallel-size (-pp) :流水线并行阶段的数量。 --tensor-parallel-size (-tp) :张量并行副本数量。

缺陷 | Drawbacks

会影响单个推理的延迟

未解决问题 | Unresolved questions

No response