Closed BBuf closed 1 year ago
在俊丞的帮助下理清了 one-codegeex 的attention实现,实际上就是一个带增量的 fmha,也是可以用上我们的fmha kernel的。只需要对输入和输出做一些维度变化就可以等价替换。
加入 fmha pass 速度:
输出序列长度 1024
oneflow: 25.41s->22.06s。加速比:15%
现在 oneflow 已经是 pytorch, oneflow, fastertransformer中推理codegeex最快的框架了。相比于FasterTransformer,预计有10%左右的优势。
pr合并之后,王义需要重新测试下数据。接下来打算把这个仓库改的三个脚本合并到one-codegeex主分支上。
在俊丞的帮助下理清了 one-codegeex 的attention实现,实际上就是一个带增量的 fmha,也是可以用上我们的fmha kernel的。只需要对输入和输出做一些维度变化就可以等价替换。
加入 fmha pass 速度:
输出序列长度 1024
oneflow: 25.41s->22.06s。加速比:15%
现在 oneflow 已经是 pytorch, oneflow, fastertransformer中推理codegeex最快的框架了。相比于FasterTransformer,预计有10%左右的优势。
pr合并之后,王义需要重新测试下数据。接下来打算把这个仓库改的三个脚本合并到one-codegeex主分支上。