Closed SeibertronSS closed 3 months ago
我之前一直在参考 LMDeploy 0.14.0 的代码,发现 int8 kv cache 和 Flash Attention 无法一起使用,但是这个问题在后续的版本中得到了修复,请问是什么原因导致的呢?
现在的版本需要 prefill 时会先把 kv cache dequant。
好的
我之前一直在参考 LMDeploy 0.14.0 的代码,发现 int8 kv cache 和 Flash Attention 无法一起使用,但是这个问题在后续的版本中得到了修复,请问是什么原因导致的呢?