Closed wjx0110 closed 2 years ago
记得看这里面的注释:Here we use a additive attention module instead of pooling in the paper
下面那行被注释掉的 pooled = F.max_pool1d(activated, activated.size(2)).squeeze(dim=2) 就是原文中的最大池化。
additive attention 和 最大池化任选其一即可,我当时选择用了 additive attention 可能是因为这样效果更好?!时间久了我也忘了...
close
你好,我想问一下这个池化操作,我之前理解是最大池化操作,但是我现在研究了好久发现好像是我理解错了,我有去看additive_attention.py这个代码,但是还是不能理解,不知道您不能讲一下思想呢?谢谢