Open thunderboom opened 3 years ago
attention layer相当于是共享的参数,其他layer的相当于是私有的参数。需要通过dropout降低过拟合(train的f1后期可以超过0.99),对共享layer进行dropout不会对分类结果产生(训练/测试)不一致的影响;然而如果直接对私有layer进行dropout会对结果产生(训练/测试)不一致的影响。对私有layer产生最小影响的其中一种共享layer方式就是共享一个attention score。
你好,感谢你分享的代码;我看到每个任务的top layer层是 (1)通过CLS计算的attention,(2)通过CLS做矩阵变化变换得到的向量,并且切分给每个类别(3)将每个类别的向量和attetnion做点乘,得到每个类别的输出。 不明白这么做的含义,请教一下,谢谢