LeeSureman / Flat-Lattice-Transformer

code for ACL 2020 paper: FLAT: Chinese NER Using Flat-Lattice Transformer
1k stars 178 forks source link

公式(11)书写是否有问题? #37

Open shugrgr opened 3 years ago

shugrgr commented 3 years ago

在读论文推导公式的过程中,我觉得公式(11)书写是否有问题? 以这一部分举例,image,是一个(dhead,dmodel)*(dmodel,1)*(1,dmodel)*(dmodel,dhead)的计算,计算结果是一个(dhead,dhead)的矩阵,而非是一个标量。Aij是一个矩阵的话,A*就不能替换掉attention公式中的A了。

不知道是否我理解有问题,希望作者能够解答

LeeSureman commented 3 years ago

这里的四个矩阵可以认为是一个head里的计算变量

HXYstudy commented 3 years ago

我也觉得有点问题,感觉现在的论文在positionembedding上有两种维度看法: 一种是QTK(T是指转置),这个是把每个字的Q和K当做列向量,每个列向量是由WE求得,所以在Transformer-XL上用的是ETWTWE。 另一种是QKT,这种是把每个字的Q和K当做行向量,这个是用的EW求得,所以tener上用的是EWWTET。 作者这个维度像是在用QTK,然后用EW当做列向量,但是EW求出来的应该是行向量啊。 不知道我是哪里理解错了,还请各位能指正,这个公式也困扰我挺久了

HaimianYu commented 2 years ago

同样觉得有问题