add fmha pass - Githubissues

在俊丞的帮助下理清了 one-codegeex 的attention实现，实际上就是一个带增量的 fmha，也是可以用上我们的fmha kernel的。只需要对输入和输出做一些维度变化就可以等价替换。

加入 fmha pass 速度：

输出序列长度 1024

oneflow: 25.41s->22.06s。加速比：15%

现在 oneflow 已经是 pytorch, oneflow, fastertransformer中推理codegeex最快的框架了。相比于FasterTransformer，预计有10%左右的优势。

pr合并之后，王义需要重新测试下数据。接下来打算把这个仓库改的三个脚本合并到one-codegeex主分支上。

Oneflow-Inc / one-codegeex