Open nimawhhh opened 9 months ago
你说的应该是CNN中为什么要使用no shift module吧? 因为我对shift操作的理解是:shift的本质是改变感受野,CNN中多层卷积算子的堆叠,已经起到了改变感受野的作用,所以不再需要额外的shift操作;而transformer结构中,每次计算attention都是在固定的窗口内,需要进行shift改变感受野大小,与窗口外的信息进行一定的交互。
非常感谢您的回复,可能我对您代码的理解有误,我发现您的CNN模型相关代码中在encode端在两个attention里分别做了shift为4和shift为2共两次(解码端同样),是我哪里理解有误吗
------------------ 原始邮件 ------------------ 发件人: "Googolxx/STF" @.>; 发送时间: 2024年1月30日(星期二) 下午3:46 @.>; @.**@.>; 主题: Re: [Googolxx/STF] 关于CNN模型 (Issue #35)
你说的应该是CNN中为什么要使用no shift module吧? 因为我对shift操作的理解是:shift的本质是改变感受野,CNN中多层卷积算子的堆叠,已经起到了改变感受野的作用,所以不再需要额外的shift操作;而transformer结构中,每次计算attention都是在固定的窗口内,需要进行shift改变感受野大小,与窗口外的信息进行一定的交互。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
抱歉是我弄错了😂,我以为我release的代码对cnn是没有做shift的,但我刚看代码确认了一下,实际上cnn模型里是做了shift的。 我记得当初做过对比实验,结论是:对cnn模型的attention做不做shift差异不大。 所以你理解的对的,应该没必要做shift。
您好作者,请问在CNN model 中,为什么要使用shift model呢,非常感谢