Optimize fmha style - Githubissues

[x] 整理不使用 fused_multi_head_attention_inference_v2 时的原始代码，保证在fused_multi_head_attention_inference_v2无法生效时fallback的代码可以成功执行。
[x] fused_multi_head_attention_inference_v2 用法更新，设置output_layout避免手动transpose batch和seq维度，使用causal_diagonal_offset代替对layer_past的特判，代码更加干净。
[x] quantize_oneflow部分修复bug，把self.group_size从in_features//64改为in_features，seq_length为1024时速度从21.93->17.57s。
[x] 针对是否fallback以及fp16/int8都进行了测试，可以正确的跑出结果。

Oneflow-Inc / one-codegeex