Open ywh187 opened 3 months ago
他的QKV 计算量包含在attention部分里面了
没有吧,感觉他这个库只计算了nn.Module相关的FLOPs,没有考虑直接的乘、加操作。
接
请问有什么库可以考虑到直接的乘加操作吗
好像直接用torch.nn.MultiheadAttention没有问题,但是自己写的q @ k没有被统计的样子,这是为什么呢?
+1,确实是这样的,attention的flops完全没有被考虑
他的QKV 计算量包含在attention部分里面了