Closed zouge357 closed 4 months ago
你好,感谢关注。原因是为了在矩阵乘法中节省计算服开销。原先是(HW x C)x(C x HW)。现在改了后是 (C x HW)x(HW x C),这样子就可以把 HW 给消除掉了
谢谢您的回复,但是您看代码里面,您将qkv的维度都转换为(1,1,28,147456),此时的话q乘k的转置也同样可以得到(28,28)的通道注意力矩阵呀?这样计算量也是一样的。
是的,此时也是消掉 hw,你此时说的q和我说的k是等价的
您的意思是无论是q乘k转置还是k乘q转置这个其实无所谓,要求没那么严格,并不是非要按照原本transformer中的公式,只要使用了qkv计算的思想就可以吗?
作者您好,您在mst实现注意力的时候,用的是k乘以q的转置,按照注意力公式不应该是q乘以k的转置?这个设置是有什么原因吗?感谢您的回答