zcablii / LSKNet

(IJCV2024 & ICCV2023) LSKNet: A Foundation Lightweight Backbone for Remote Sensing
Other
488 stars 40 forks source link

空间选择和大核选择[Docs] #74

Closed ssfkfffddj closed 4 months ago

ssfkfffddj commented 4 months ago

Branch

master branch https://mmrotate.readthedocs.io/en/latest/

📚 The doc issue

老师您好,请问一下这个大核后边的1x1的卷积是用来选择大核的,后边两个注意力图分别与两组特征相乘是用来做空间选择的,这样理解对吗? image

Suggest a potential alternative/fix

No response

ssfkfffddj commented 4 months ago

老师我还有一个问题,最后这里用了“乘”没有用“加”,这里是有什么原因吗? image

zcablii commented 4 months ago

请参考原论文的Equation (4)。大核后边的1x1的卷积是为了"allowing channel mixing for each spatial feature vector",并且可以压缩通道数。后边两个注意力图分别与两组特征相乘是用来做空间选择的。最后这里用了“乘”没有用“加”只是工程实现的选择,在理解上可以认为,空间选择后的特征S是作为最初始输入X的attetion,空间选择上的attetion相当于attention上的attention。不过用“加”的方式也make sense,可以看作一种残差的思想。当时没有做对比试验去验证“乘”或“加”哪个更好。

ssfkfffddj commented 4 months ago

这里两个特征图分别与U1、U2相乘,作用一个是空间选择,还有一个就是对某一个位置上,使用哪个大核做选择, 是这样吗 image

ssfkfffddj commented 4 months ago

这里的F(2->N)这个卷积,我看代码里边使用的是F(2->2),这里使用2->2会好一些吗

zcablii commented 4 months ago

这里两个特征图分别与U1、U2相乘,作用一个是空间选择,还有一个就是对某一个位置上,使用哪个大核做选择, 是这样吗 image

经过sigmoid的SA有两个channel两个channel 分别作为两个大核卷出来的特征图的空间 attention map。也就是说,对于某一个空间位置,通过SA去加权两个大核的特征图。其意义就是,对于某一空间位置,从两个大核中做软选择。

这里的F(2->N)这个卷积,我看代码里边使用的是F(2->2),这里使用2->2会好一些吗

是的。N是大核分支的数量,论文中的消融实验也对比了N={1,2,3}的情况,2是较优的。

ssfkfffddj commented 4 months ago

好的,谢谢老师,我理解了 非常感谢!