qhfan / RMT

(CVPR2024)RMT: Retentive Networks Meet Vision Transformer
273 stars 18 forks source link

关于文章中对RetNet的改动 #11

Closed noobpeng99 closed 3 months ago

noobpeng99 commented 9 months ago

一直有一个疑惑,RetNet提到的MSA具有类似RNN那样的性质,使得在并行和串行的条件下输出是一致的,也就是关于D矩阵的构造,请问RMT对这个进行修改之后,MaSA具有类似的性质吗,如果没有,那么MaSA和Transformer的多头注意力的区别是否只在于对于多头不同衰减的mask呢

XcloudFance commented 9 months ago

个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质

noobpeng99 commented 9 months ago

个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质

所以给我的感觉是与其说是对RetNet做修改,不如说是把衰减的mask引入到Transformer中了,真的很迷

qhfan commented 9 months ago

hello,可以看一下我们现在arxiv版本的消融实验里面,和retention的比较。retention的串行形式更多的是面向自回归的任务,直接用在backbone里面速度会慢非常多,我们就没有保留这个串行形式。

noobpeng99 commented 9 months ago

hello,可以看一下我们现在arxiv版本的消融实验里面,和retention的比较。retention的串行形式更多的是面向自回归的任务,直接用在backbone里面速度会慢非常多,我们就没有保留这个串行形式。

明白了,我再去看看,谢谢回复!

lijun2005 commented 2 months ago

个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质

所以给我的感觉是与其说是对RetNet做修改,不如说是把衰减的mask引入到Transformer中了,真的很迷

就是这样的,讲了一个好故事罢了,并且代码中的实现还跟论文里的不一样,真的很迷。