关于文章中对RetNet的改动

qhfan / RMT

(CVPR2024)RMT: Retentive Networks Meet Vision Transformer

273 stars 18 forks source link

Closed noobpeng99 closed 3 months ago

noobpeng99 commented 9 months ago

一直有一个疑惑，RetNet提到的MSA具有类似RNN那样的性质，使得在并行和串行的条件下输出是一致的，也就是关于D矩阵的构造，请问RMT对这个进行修改之后，MaSA具有类似的性质吗，如果没有，那么MaSA和Transformer的多头注意力的区别是否只在于对于多头不同衰减的mask呢

XcloudFance commented 9 months ago

个人观点，看完代码觉得衰减的mask作用最大，是没在RMT看到串行和并行输出一致的这个性质

noobpeng99 commented 9 months ago

个人观点，看完代码觉得衰减的mask作用最大，是没在RMT看到串行和并行输出一致的这个性质

所以给我的感觉是与其说是对RetNet做修改，不如说是把衰减的mask引入到Transformer中了，真的很迷

qhfan commented 9 months ago

hello，可以看一下我们现在arxiv版本的消融实验里面，和retention的比较。retention的串行形式更多的是面向自回归的任务，直接用在backbone里面速度会慢非常多，我们就没有保留这个串行形式。

noobpeng99 commented 9 months ago

hello，可以看一下我们现在arxiv版本的消融实验里面，和retention的比较。retention的串行形式更多的是面向自回归的任务，直接用在backbone里面速度会慢非常多，我们就没有保留这个串行形式。

明白了，我再去看看，谢谢回复！

lijun2005 commented 2 months ago

个人观点，看完代码觉得衰减的mask作用最大，是没在RMT看到串行和并行输出一致的这个性质

所以给我的感觉是与其说是对RetNet做修改，不如说是把衰减的mask引入到Transformer中了，真的很迷

就是这样的，讲了一个好故事罢了，并且代码中的实现还跟论文里的不一样，真的很迷。