issues
search
Oneflow-Inc
/
one-codegeex
Apache License 2.0
7
stars
1
forks
source link
Optimize fmha style
#17
Closed
BBuf
closed
1 year ago
BBuf
commented
1 year ago
[x] 整理不使用 fused_multi_head_attention_inference_v2 时的原始代码,保证在fused_multi_head_attention_inference_v2无法生效时fallback的代码可以成功执行。
[x] fused_multi_head_attention_inference_v2 用法更新,设置output_layout避免手动transpose batch和seq维度,使用causal_diagonal_offset代替对layer_past的特判,代码更加干净。
[x] quantize_oneflow部分修复bug,把self.group_size从in_features//64改为in_features,seq_length为1024时速度从21.93->17.57s。
[x] 针对是否fallback以及fp16/int8都进行了测试,可以正确的跑出结果。