Closed xiaolongren969 closed 1 month ago
在代码中qkv生成部分和MLP生成部分用的是卷积,而在论文中示意图和表格能量计算部分用的是线性层的计算方式
Conv2d1x1与Linear层完全等价,具体原因请阅读pytorch docs或复习CS231n等深度学习基础课程。
好的,感想您的回复,我的问题解决了
在代码中qkv生成部分和MLP生成部分用的是卷积,而在论文中示意图和表格能量计算部分用的是线性层的计算方式