Question about attention compute

cschenxiang / DRSformer

Learning A Sparse Transformer Network for Effective Image Deraining (CVPR 2023)

265 stars 14 forks source link

Closed 591582523h closed 1 year ago

591582523h commented 1 year ago

在DRSformer_arch.py的第124到138行，您计算时使用的是C x HW 的 query 和 HW x C 的 value，这和普通的Attention计算相反，这有什么特殊的设计吗？

cschenxiang commented 1 year ago

在DRSformer_arch.py的第124到138行，您计算时使用的是C x HW 的 query 和 HW x C 的 value，这和普通的Attention计算相反，这有什么特殊的设计吗？

您好，这个设计我们与https://github.com/swz30/Restormer中保持一致，目的是减小计算复杂度，具体可参考Restormer原文。