Leveraging Pre-trained Checkpoints for Sequence Generation Tasks

系列変換タスクにおける、BERTやRoBERTa、GPT-2などの大規模事前学習モデルの効果を検証した論文。系列変換タスクとして、機械翻訳や要約、文融合などのタスクを扱っており、大規模な実験を行っている。結果として、BERT2GPTでは、初期値をランダムに設定した場合よりも性能が劣ること及びEncoderとDecoderのVocabularyを一致させることの重要性、EncoderとDecoderの重みを共有することで高い性能を達成できることを示した。