feifeibear / LLMSpeculativeSampling

Fast inference from large lauguage models via speculative decoding
Apache License 2.0
530 stars 51 forks source link

投机采样的速度比target model速度还要慢 #28

Closed pppyb closed 2 months ago

pppyb commented 3 months ago

作者您好,非常感谢您的工作。但是我在尝试运行的时候,发现投机采样的速度比target model速度还要慢。

image

想请教一下作者,不知道您在运行代码的时候是否遇到了这个问题? 再次表达感谢您的工作!

feifeibear commented 3 months ago

这个项目目的是展示投机采样的原理,并不不是一个完备的LLM推理加速组件。 有很多原因没有真实加速: 一方面,一般认为大小模型相差两个数量级才有效果。 另一方面,可以和TRT-LLM等算子融合,PagedAttn优化结合,可能效果又不同。 最后,投机采样发展很快,有很多draft model的变种,比如Lookahead decoding之类的,都可以和本项目融合

pppyb commented 2 months ago

非常感谢!!!