Open ouyanxi1125 opened 1 month ago
超级感谢!关于第二点我看了论文,很理解,但是至于为啥是down_proj和o_proj,还是存在疑问,up_proj是不是也是可行的?
我们参照了adapter的方式在输出的地方清零,在up的时候清零我没算过,不确定有没有梯度,你可以试一下
你好,请问下down_proj, o_proj初始化为0,o_proj,down_proj有梯度吗。