Open lijun2005 opened 10 months ago
同时从论文原文来看,上述FSAS模块的计算只是解决了空域上Q K的矩阵乘法计算,但同时softmax也是自注意力计算的核心操作,但是原始论文和代码中都并没有讨论softmax操作在FSAS上的作用,也并没有对softmax操作进行消融实验对比
你好,目前已经有一些工作证明了不需要softmax也可以取得很好的效果例如:“Transformer Quality in Linear Time”,self_attention的核心并不是softmax,softmax只是一个非线性的函数,是可以换成别的函数的
阅读了FSAS代码,发现这并不算是自注意力计算吧,output的计算方式是
这应该是spatial domain上的门控机制吧