lonePatient / NeZha_Chinese_PyTorch

NEZHA: Neural Contextualized Representation for Chinese Language Understanding
MIT License
262 stars 54 forks source link

想问一下,可以直接使用transformer里的bert模型,直接来加载nezha权重可以吗 #9

Closed xuanzebi closed 2 years ago

xuanzebi commented 3 years ago

顺便想问一下,和huawei官方的nezha这个有什么区别呢

zhengyanzhao1997 commented 3 years ago

应该是不行的,transformer的bert模型 是没有基于sin/cos的相对位置编码的设定

xuanzebi commented 3 years ago

应该是不行的,transformer的bert模型 是没有基于sin/cos的相对位置编码的设定

是的, 我试了试,效果不好。

zhengyanzhao1997 commented 3 years ago

https://blog.csdn.net/weixin_45839693/article/details/112910652?spm=1001.2014.3001.5501 我用TF做过简单的魔改,你在pytorch上可以试试,其实和bert区别在于在embedding准备阶段不加入position_embedding 而在attention时加入q v的基于sin/cos的相对位置编码