Closed kikyou2018 closed 4 months ago
您好。 在一些其它的工作,如segformer中,降低注意力复杂度的一种方法是,通过不重叠的Conv2d降低K、V的个数,后续且不需要上采样。那么DFormer的工作中,却选择通过降低Q的个数降低计算量,是出于什么考量?
您好。 在一些其它的工作,如segformer中,降低注意力复杂度的一种方法是,通过不重叠的Conv2d降低K、V的个数,后续且不需要上采样。那么DFormer的工作中,却选择通过降低Q的个数降低计算量,是出于什么考量?