DeBERTa: Decoding-enhanced BERT with Disentangled Attention - Githubissues

izhx / paper-reading

组内追更订会相关论文

7 stars 2 forks source link

DeBERTa: Decoding-enhanced BERT with Disentangled Attention #3

Open zhangfanTJU opened 3 years ago

zhangfanTJU commented 3 years ago

内容

改善 BERT 和 RoBERTa预训练效率，并提升下游指标

信息

主要作者：Pengcheng He
单位：Microsoft Dynamics 365 AI
论文链接

1 学习到的新东西：

注意力解耦机制(disentangled attention mechanism)替换原始的self-attn层：将单词的表征由单词的内容和位置编码组成，并使用解耦矩阵计算单词之间在内容和相对位置上的注意力权重
增强的mask解码机制(enhanced mask decoder)替换原始输出的softmax层：将MLM与其他下游任务同等对待，encoder由11层 Transformer组成，decoder由2层参数共享的Transformer和一个Softmax输出层组成。

2 通过Related Work了解到了哪些知识

按自己的认识写，

3 实验验证任务，如果不太熟悉，需要简单描述

SuperGLUE SOTA

4 在你认知范围内，哪些其它任务可以尝试

5 好的词语、句子或段落

以句子为单位收集