空间选择和大核选择[Docs]

zcablii / LSKNet

(IJCV2024 & ICCV2023) LSKNet: A Foundation Lightweight Backbone for Remote Sensing

Other

488 stars 40 forks source link

空间选择和大核选择[Docs] #74

Closed ssfkfffddj closed 4 months ago

ssfkfffddj commented 4 months ago

Branch

master branch https://mmrotate.readthedocs.io/en/latest/

📚 The doc issue

老师您好，请问一下这个大核后边的1x1的卷积是用来选择大核的，后边两个注意力图分别与两组特征相乘是用来做空间选择的，这样理解对吗？

Suggest a potential alternative/fix

No response

ssfkfffddj commented 4 months ago

老师我还有一个问题，最后这里用了“乘”没有用“加”，这里是有什么原因吗？

zcablii commented 4 months ago

请参考原论文的Equation (4)。大核后边的1x1的卷积是为了"allowing channel mixing for each spatial feature vector"，并且可以压缩通道数。后边两个注意力图分别与两组特征相乘是用来做空间选择的。最后这里用了“乘”没有用“加”只是工程实现的选择，在理解上可以认为，空间选择后的特征S是作为最初始输入X的attetion，空间选择上的attetion相当于attention上的attention。不过用“加”的方式也make sense，可以看作一种残差的思想。当时没有做对比试验去验证“乘”或“加”哪个更好。

ssfkfffddj commented 4 months ago

这里两个特征图分别与U1、U2相乘，作用一个是空间选择，还有一个就是对某一个位置上，使用哪个大核做选择，是这样吗

ssfkfffddj commented 4 months ago

这里的F(2->N)这个卷积，我看代码里边使用的是F（2->2），这里使用2->2会好一些吗

zcablii commented 4 months ago

这里两个特征图分别与U1、U2相乘，作用一个是空间选择，还有一个就是对某一个位置上，使用哪个大核做选择，是这样吗

经过sigmoid的SA有两个channel两个channel 分别作为两个大核卷出来的特征图的空间 attention map。也就是说，对于某一个空间位置，通过SA去加权两个大核的特征图。其意义就是，对于某一空间位置，从两个大核中做软选择。

这里的F(2->N)这个卷积，我看代码里边使用的是F（2->2），这里使用2->2会好一些吗

是的。N是大核分支的数量，论文中的消融实验也对比了N={1，2，3}的情况，2是较优的。

ssfkfffddj commented 4 months ago

好的，谢谢老师，我理解了非常感谢！