Closed yinzhijian closed 1 month ago
另外请教下,从原理上来说,为什么OpenRLHF的性能比DSChat混合引擎高出这么多?是DS的推理引擎性能远低于vllm?还是其它原因?谢谢
两个原因 第一个是 vLLM 和 HE (这个是半成品) 的差距 第二个原因是 DSChat 共享GPU把模型切的太开 通信开销(跨节点) 以及GPU内存不够导致 batch size 加不上来(这对LLM推理训练性能很重要,避免内存瓶颈以及减少ZeRO3 通信次数)
@hijkzzz 感谢回复,另外请问Hybrid vLLM inference engine这个功能大概什么时候能够发布?对现有性能的提升预计是多少?
@hijkzzz 感谢回复,另外请问Hybrid vLLM inference engine这个功能大概什么时候能够发布?对现有性能的提升预计是多少?
这个尚有距离 因为目前开发者人数较少,我们主打易用性和性能平衡,倒是没有去追求极致的性能
好的。最后,performance的超参,比如actor数量、critic数量、zero-stage等,能否有空在说明文档补充下?:)
好的。最后,performance的超参,比如actor数量、critic数量、zero-stage等,能否有空在说明文档补充下?:)
下面是我们的实验数据,注意 我们并没有极致调优(比如开启节点合并之类的)反正 都是可以自己配置的
十分感谢~~,👍🏻👍🏻👍🏻