rogerrojur / tianchi-multi-task-nlp

NLP中文预训练模型泛化能力挑战赛
42 stars 25 forks source link

TOP layer设置的很奇怪 #9

Open thunderboom opened 3 years ago

thunderboom commented 3 years ago

你好,感谢你分享的代码;我看到每个任务的top layer层是 (1)通过CLS计算的attention,(2)通过CLS做矩阵变化变换得到的向量,并且切分给每个类别(3)将每个类别的向量和attetnion做点乘,得到每个类别的输出。 不明白这么做的含义,请教一下,谢谢

rogerrojur commented 3 years ago

attention layer相当于是共享的参数,其他layer的相当于是私有的参数。需要通过dropout降低过拟合(train的f1后期可以超过0.99),对共享layer进行dropout不会对分类结果产生(训练/测试)不一致的影响;然而如果直接对私有layer进行dropout会对结果产生(训练/测试)不一致的影响。对私有layer产生最小影响的其中一种共享layer方式就是共享一个attention score。