[2019]RoBERTa: A Robustly Optimized BERT Pretraining Approach

BERTモデルの事前訓練を再評価した結果、BERTが大幅に未訓練であることを明らかに。これに基づき、RoBERTaと呼ばれる改良された訓練方法を提案。背景言語モデルの事前訓練は大きな性能向上をもたらしているが、異なるアプローチを慎重に比較することは困難。訓練は計算コストが高く、異なるサイズのプライベートデータセットで行われることが多いため、ハイパーパラメータの選択が最終結果に大きく影響する。

実験 BERTの事前訓練を再現する研究を行い、多くの重要なハイパーパラメータと訓練データのサイズの影響を測定。BERTが重要な性能向上のポイントを逃していたことをがわかった。具体的には、静的マスキングと動的マスキングの比較、モデル入力形式、次文予測の必要性など、さまざまな訓練形式を比較。

結論この論文では、RoBERTaがGLUE、RACE、SQuADなどの多くの自然言語理解タスクで最先端の結果を達成したことを報告。これらの結果は、以前は見過ごされていた設計上の選択の重要性を浮き彫りにし、最近報告された改善の原因についての疑問を提起。

takumi7110 / paper

[2019]RoBERTa: A Robustly Optimized BERT Pretraining Approach #32