Closed pppyb closed 2 months ago
作者您好,非常感谢您的工作。但是我在尝试运行的时候,发现投机采样的速度比target model速度还要慢。
想请教一下作者,不知道您在运行代码的时候是否遇到了这个问题? 再次表达感谢您的工作!
这个项目目的是展示投机采样的原理,并不不是一个完备的LLM推理加速组件。 有很多原因没有真实加速: 一方面,一般认为大小模型相差两个数量级才有效果。 另一方面,可以和TRT-LLM等算子融合,PagedAttn优化结合,可能效果又不同。 最后,投机采样发展很快,有很多draft model的变种,比如Lookahead decoding之类的,都可以和本项目融合
非常感谢!!!
作者您好,非常感谢您的工作。但是我在尝试运行的时候,发现投机采样的速度比target model速度还要慢。
想请教一下作者,不知道您在运行代码的时候是否遇到了这个问题? 再次表达感谢您的工作!