issues
search
izhx
/
paper-reading
组内追更订会相关论文
7
stars
2
forks
source link
DeBERTa: Decoding-enhanced BERT with Disentangled Attention
#3
Open
zhangfanTJU
opened
3 years ago
zhangfanTJU
commented
3 years ago
内容
改善 BERT 和 RoBERTa预训练效率,并提升下游指标
信息
主要作者:Pengcheng He
单位:Microsoft Dynamics 365 AI
论文链接
1 学习到的新东西:
注意力解耦机制(disentangled attention mechanism)替换原始的self-attn层:将单词的表征由单词的内容和位置编码组成,并使用解耦矩阵计算单词之间在内容和相对位置上的注意力权重
增强的mask解码机制(enhanced mask decoder)替换原始输出的softmax层:将MLM与其他下游任务同等对待,encoder由11层 Transformer组成,decoder由2层参数共享的Transformer和一个Softmax输出层组成。
2 通过Related Work了解到了哪些知识
按自己的认识写,
3 实验验证任务,如果不太熟悉,需要简单描述
SuperGLUE SOTA
4 在你认知范围内,哪些其它任务可以尝试
5 好的词语、句子或段落
以句子为单位收集
内容
改善 BERT 和 RoBERTa预训练效率,并提升下游指标
信息
1 学习到的新东西:
2 通过Related Work了解到了哪些知识
按自己的认识写,
3 实验验证任务,如果不太熟悉,需要简单描述
SuperGLUE SOTA
4 在你认知范围内,哪些其它任务可以尝试
5 好的词语、句子或段落
以句子为单位收集