Open shugrgr opened 3 years ago
这里的四个矩阵可以认为是一个head里的计算变量
我也觉得有点问题,感觉现在的论文在positionembedding上有两种维度看法: 一种是QTK(T是指转置),这个是把每个字的Q和K当做列向量,每个列向量是由WE求得,所以在Transformer-XL上用的是ETWTWE。 另一种是QKT,这种是把每个字的Q和K当做行向量,这个是用的EW求得,所以tener上用的是EWWTET。 作者这个维度像是在用QTK,然后用EW当做列向量,但是EW求出来的应该是行向量啊。 不知道我是哪里理解错了,还请各位能指正,这个公式也困扰我挺久了
同样觉得有问题
在读论文推导公式的过程中,我觉得公式(11)书写是否有问题? 以这一部分举例,,是一个(dhead,dmodel)*(dmodel,1)*(1,dmodel)*(dmodel,dhead)的计算,计算结果是一个(dhead,dhead)的矩阵,而非是一个标量。Aij是一个矩阵的话,A*就不能替换掉attention公式中的A了。
不知道是否我理解有问题,希望作者能够解答