公式(11)书写是否有问题？

shugrgr commented 3 years ago

在读论文推导公式的过程中，我觉得公式（11）书写是否有问题？以这一部分举例，，是一个(dhead，dmodel)*(dmodel，1)*(1，dmodel)*(dmodel，dhead)的计算，计算结果是一个(dhead,dhead)的矩阵，而非是一个标量。Aij是一个矩阵的话，A*就不能替换掉attention公式中的A了。

不知道是否我理解有问题，希望作者能够解答

LeeSureman commented 3 years ago

这里的四个矩阵可以认为是一个head里的计算变量

HXYstudy commented 3 years ago

我也觉得有点问题，感觉现在的论文在positionembedding上有两种维度看法：一种是QTK(T是指转置)，这个是把每个字的Q和K当做列向量，每个列向量是由WE求得，所以在Transformer-XL上用的是ETWTWE。另一种是QKT，这种是把每个字的Q和K当做行向量，这个是用的EW求得，所以tener上用的是EWWTET。作者这个维度像是在用QTK，然后用EW当做列向量，但是EW求出来的应该是行向量啊。不知道我是哪里理解错了，还请各位能指正，这个公式也困扰我挺久了

HaimianYu commented 2 years ago

同样觉得有问题

LeeSureman / Flat-Lattice-Transformer

公式(11)书写是否有问题？ #37