Closed 591582523h closed 1 year ago
在DRSformer_arch.py的第124到138行,您计算时使用的是C x HW 的 query 和 HW x C 的 value,这和普通的Attention计算相反,这有什么特殊的设计吗?
您好,这个设计我们与https://github.com/swz30/Restormer中保持一致,目的是减小计算复杂度,具体可参考Restormer原文。
在DRSformer_arch.py的第124到138行,您计算时使用的是C x HW 的 query 和 HW x C 的 value,这和普通的Attention计算相反,这有什么特殊的设计吗?