Open tm4roon opened 5 years ago
BERTの事前学習をEncoder-Decoderモデルに拡張した研究。BERTやGPTのような言語モデルの学習はEncoder及びDecoderのみの学習した出来なかった(Figure.2)。ここでは、入力文のある範囲をマスクした状態でエンコードし、その部分に入る語を予測するというタスクを解かせる事前学習を行う(Figure.1)。これにより、翻訳や要約、対話応答生成などの3つのタスク(8つのデータセット)で、性能を改善した。
MASS: Masked Sequence to Sequence Pre-training for Language Generation
BERTの事前学習をEncoder-Decoderモデルに拡張した研究。BERTやGPTのような言語モデルの学習はEncoder及びDecoderのみの学習した出来なかった(Figure.2)。ここでは、入力文のある範囲をマスクした状態でエンコードし、その部分に入る語を予測するというタスクを解かせる事前学習を行う(Figure.1)。これにより、翻訳や要約、対話応答生成などの3つのタスク(8つのデータセット)で、性能を改善した。
Masked language modeling in BERT, Standard language modeling
Masked sequence-to-sequence pre-training
文献情報