TOP layer设置的很奇怪

rogerrojur / tianchi-multi-task-nlp

NLP中文预训练模型泛化能力挑战赛

42 stars 25 forks source link

TOP layer设置的很奇怪 #9

Open thunderboom opened 3 years ago

thunderboom commented 3 years ago

你好，感谢你分享的代码；我看到每个任务的top layer层是 (1)通过CLS计算的attention，(2)通过CLS做矩阵变化变换得到的向量，并且切分给每个类别（3）将每个类别的向量和attetnion做点乘，得到每个类别的输出。不明白这么做的含义，请教一下，谢谢

rogerrojur commented 3 years ago

attention layer相当于是共享的参数，其他layer的相当于是私有的参数。需要通过dropout降低过拟合（train的f1后期可以超过0.99），对共享layer进行dropout不会对分类结果产生（训练/测试）不一致的影响；然而如果直接对私有layer进行dropout会对结果产生（训练/测试）不一致的影响。对私有layer产生最小影响的其中一种共享layer方式就是共享一个attention score。