想问一下，可以直接使用transformer里的bert模型，直接来加载nezha权重可以吗

lonePatient / NeZha_Chinese_PyTorch

NEZHA: Neural Contextualized Representation for Chinese Language Understanding

MIT License

262 stars 54 forks source link

Closed xuanzebi closed 2 years ago

xuanzebi commented 3 years ago

顺便想问一下，和huawei官方的nezha这个有什么区别呢

zhengyanzhao1997 commented 3 years ago

应该是不行的，transformer的bert模型是没有基于sin/cos的相对位置编码的设定

xuanzebi commented 3 years ago

应该是不行的，transformer的bert模型是没有基于sin/cos的相对位置编码的设定

是的，我试了试，效果不好。

zhengyanzhao1997 commented 3 years ago

https://blog.csdn.net/weixin_45839693/article/details/112910652?spm=1001.2014.3001.5501 我用TF做过简单的魔改，你在pytorch上可以试试，其实和bert区别在于在embedding准备阶段不加入position_embedding 而在attention时加入q v的基于sin/cos的相对位置编码