Open cannonli7 opened 1 year ago
红外图像语义信息少,我们将(H,W,1)降到(H,1)可以让模型选择有价值的语义信息,然后做矩阵乘法计算attention矩阵。相较于自注意力机制,关于value的操作,我们使用了卷积操作对其进行特征提取。
你好,请问BAM模块将特征从(H,W,1)降到(H,1)这一步有什么具体的含义和作用?和一般的自注意力有什么区别
红外图像语义信息少,我们将(H,W,1)降到(H,1)可以让模型选择有价值的语义信息,然后做矩阵乘法计算attention矩阵。相较于自注意力机制,关于value的操作,我们使用了卷积操作对其进行特征提取。
你好,请问BAM模块将特征从(H,W,1)降到(H,1)这一步有什么具体的含义和作用?和一般的自注意力有什么区别