Googolxx / STF

Pytorch implementation of the paper "The Devil Is in the Details: Window-based Attention for Image Compression".
Apache License 2.0
161 stars 20 forks source link

关于CNN模型 #35

Open nimawhhh opened 9 months ago

nimawhhh commented 9 months ago

您好作者,请问在CNN model 中,为什么要使用shift model呢,非常感谢

Googolxx commented 9 months ago

你说的应该是CNN中为什么要使用no shift module吧? 因为我对shift操作的理解是:shift的本质是改变感受野,CNN中多层卷积算子的堆叠,已经起到了改变感受野的作用,所以不再需要额外的shift操作;而transformer结构中,每次计算attention都是在固定的窗口内,需要进行shift改变感受野大小,与窗口外的信息进行一定的交互。

nimawhhh commented 9 months ago

非常感谢您的回复,可能我对您代码的理解有误,我发现您的CNN模型相关代码中在encode端在两个attention里分别做了shift为4和shift为2共两次(解码端同样),是我哪里理解有误吗

------------------ 原始邮件 ------------------ 发件人: "Googolxx/STF" @.>; 发送时间: 2024年1月30日(星期二) 下午3:46 @.>; @.**@.>; 主题: Re: [Googolxx/STF] 关于CNN模型 (Issue #35)

你说的应该是CNN中为什么要使用no shift module吧? 因为我对shift操作的理解是:shift的本质是改变感受野,CNN中多层卷积算子的堆叠,已经起到了改变感受野的作用,所以不再需要额外的shift操作;而transformer结构中,每次计算attention都是在固定的窗口内,需要进行shift改变感受野大小,与窗口外的信息进行一定的交互。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Googolxx commented 8 months ago

抱歉是我弄错了😂,我以为我release的代码对cnn是没有做shift的,但我刚看代码确认了一下,实际上cnn模型里是做了shift的。 我记得当初做过对比实验,结论是:对cnn模型的attention做不做shift差异不大。 所以你理解的对的,应该没必要做shift。