cfiken / paper-reading

34 stars 3 forks source link

[2020] DeBERTa: Decoding-enhanced BERT with Disentangled Attention #118

Open cfiken opened 3 years ago

cfiken commented 3 years ago

0. 論文

タイトル DeBERTa: Decoding-enhanced BERT with Disentangled Attention
リンク https://arxiv.org/abs/2006.03654 , https://github.com/microsoft/DeBERTa
著者 Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen (Microsoft)
投稿日付 2020/6/5 on arxiv, ICLR 2021

1. どんなもの?

SuperGLUE のベンチマークで 2021/1/6 時点で1位 & 初めて人間によるベースラインを超えた DeBERTa の提案論文(なお、2021/2/21 現在も1位)。 次の3つのアイディアを RoBERTa に取り入れることで、NLU, NLG ともに精度を向上した。

RoBERTa-Large に対して約半分のデータでスコアを改善したり、T5 より圧倒的に少ないパラメータ数で高いスコアを出している。

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

4. どうやって有効だと検証した?

GLUE, SuperGLUE を含む様々なタスクで他の pretrained モデルと比較し実験。既存手法よりも少ないデータやパラメータ数で、既存手法のスコアを上回っていることを確認している。下図は一例で、GLUEの結果。

スクリーンショット 2021-02-21 22 51 05

5. 議論はある?

future work として下記が挙げられている。

6. 次に読むべき論文は?

cfiken commented 3 years ago

Enhanced Mask Decoder は pre-train のときに使うみたいな記述があるけど、finetuning 時はどうするんだろうか...? コードを見たけど EMD っぽい部分はないので、finetune 時はないように見える?ちょっとわからない。