Closed noobpeng99 closed 3 months ago
个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质
个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质
所以给我的感觉是与其说是对RetNet做修改,不如说是把衰减的mask引入到Transformer中了,真的很迷
hello,可以看一下我们现在arxiv版本的消融实验里面,和retention的比较。retention的串行形式更多的是面向自回归的任务,直接用在backbone里面速度会慢非常多,我们就没有保留这个串行形式。
hello,可以看一下我们现在arxiv版本的消融实验里面,和retention的比较。retention的串行形式更多的是面向自回归的任务,直接用在backbone里面速度会慢非常多,我们就没有保留这个串行形式。
明白了,我再去看看,谢谢回复!
个人观点,看完代码觉得衰减的mask作用最大,是没在RMT看到串行和并行输出一致的这个性质
所以给我的感觉是与其说是对RetNet做修改,不如说是把衰减的mask引入到Transformer中了,真的很迷
就是这样的,讲了一个好故事罢了,并且代码中的实现还跟论文里的不一样,真的很迷。
一直有一个疑惑,RetNet提到的MSA具有类似RNN那样的性质,使得在并行和串行的条件下输出是一致的,也就是关于D矩阵的构造,请问RMT对这个进行修改之后,MaSA具有类似的性质吗,如果没有,那么MaSA和Transformer的多头注意力的区别是否只在于对于多头不同衰减的mask呢