Open psychocosine opened 2 years ago
为啥大家代码都是只在计算attention权重的时候对填充token做mask,送入bi-lstm还有最后的pooling层都不处理填充token?
我惊讶了,真的有人关注这个仓库的?这都是些很老的代码了,你可以找一些新的别人复现的结果哈。
为啥大家代码都是只在计算attention权重的时候对填充token做mask,送入bi-lstm还有最后的pooling层都不处理填充token?