alipay / PainlessInferenceAcceleration

Creative Commons Attribution 4.0 International
283 stars 18 forks source link

这个lookahead的实现和原版hao-ailab的实现相比优化点在哪里? #4

Closed janelu9 closed 8 months ago

janelu9 commented 8 months ago

我理解主要思路差不多,先猜测几个候选短序列,然后过一次decoder验证,选择最合适的。这种方法可能对发散性生成不会太多损失精度。但未必适用所有场景,很依赖短序列候选集的准确性,因为它们的生成没有注意到全部历史token的信息

zheyishine commented 8 months ago

这两个算法刚好名字重复了,算法是不一样的,可以看对应的论文。开源前我们的lookahead已经在内部场景上线了大半年了,开源的时候就继续沿用内部名字了。