Open cfiken opened 3 years ago
SuperGLUE のベンチマークで 2021/1/6 時点で1位 & 初めて人間によるベースラインを超えた DeBERTa の提案論文(なお、2021/2/21 現在も1位)。 次の3つのアイディアを RoBERTa に取り入れることで、NLU, NLG ともに精度を向上した。
RoBERTa-Large に対して約半分のデータでスコアを改善したり、T5 より圧倒的に少ないパラメータ数で高いスコアを出している。
P ∈ R^{2k×d}
GLUE, SuperGLUE を含む様々なタスクで他の pretrained モデルと比較し実験。既存手法よりも少ないデータやパラメータ数で、既存手法のスコアを上回っていることを確認している。下図は一例で、GLUEの結果。
future work として下記が挙げられている。
Enhanced Mask Decoder は pre-train のときに使うみたいな記述があるけど、finetuning 時はどうするんだろうか...? コードを見たけど EMD っぽい部分はないので、finetune 時はないように見える?ちょっとわからない。
0. 論文
1. どんなもの?
SuperGLUE のベンチマークで 2021/1/6 時点で1位 & 初めて人間によるベースラインを超えた DeBERTa の提案論文(なお、2021/2/21 現在も1位)。 次の3つのアイディアを RoBERTa に取り入れることで、NLU, NLG ともに精度を向上した。
RoBERTa-Large に対して約半分のデータでスコアを改善したり、T5 より圧倒的に少ないパラメータ数で高いスコアを出している。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
P ∈ R^{2k×d}
とすると、disentangled attention は下記のようになる4. どうやって有効だと検証した?
GLUE, SuperGLUE を含む様々なタスクで他の pretrained モデルと比較し実験。既存手法よりも少ないデータやパラメータ数で、既存手法のスコアを上回っていることを確認している。下図は一例で、GLUEの結果。
5. 議論はある?
future work として下記が挙げられている。
6. 次に読むべき論文は?