Oneflow-Inc / one-codegeex

Apache License 2.0
7 stars 1 forks source link

add fmha pass #12

Closed BBuf closed 1 year ago

BBuf commented 1 year ago

在俊丞的帮助下理清了 one-codegeex 的attention实现,实际上就是一个带增量的 fmha,也是可以用上我们的fmha kernel的。只需要对输入和输出做一些维度变化就可以等价替换。

加入 fmha pass 速度:

输出序列长度 1024

oneflow: 25.41s->22.06s。加速比:15%

现在 oneflow 已经是 pytorch, oneflow, fastertransformer中推理codegeex最快的框架了。相比于FasterTransformer,预计有10%左右的优势。

pr合并之后,王义需要重新测试下数据。接下来打算把这个仓库改的三个脚本合并到one-codegeex主分支上。