Open qianlan001 opened 2 years ago
请问苏老师说的将RoFormerV2的Attention+FFN换成了两层GAU,我好像只看到了一层GAU,是我哪里没有理解到位吗
GAU-alpha是一共24层GU,RoFormerV2是12层Attention+12层FFN
请问苏老师说的将RoFormerV2的Attention+FFN换成了两层GAU,我好像只看到了一层GAU,是我哪里没有理解到位吗