投机采样的速度比target model速度还要慢

feifeibear / LLMSpeculativeSampling

Fast inference from large lauguage models via speculative decoding

Apache License 2.0

530 stars 51 forks source link

投机采样的速度比target model速度还要慢 #28

Closed pppyb closed 2 months ago

pppyb commented 3 months ago

作者您好，非常感谢您的工作。但是我在尝试运行的时候，发现投机采样的速度比target model速度还要慢。

想请教一下作者，不知道您在运行代码的时候是否遇到了这个问题？再次表达感谢您的工作！

feifeibear commented 3 months ago

这个项目目的是展示投机采样的原理，并不不是一个完备的LLM推理加速组件。有很多原因没有真实加速：一方面，一般认为大小模型相差两个数量级才有效果。另一方面，可以和TRT-LLM等算子融合，PagedAttn优化结合，可能效果又不同。最后，投机采样发展很快，有很多draft model的变种，比如Lookahead decoding之类的，都可以和本项目融合

pppyb commented 2 months ago

非常感谢！！！