All NLP Tasks Are Generation Tasks: A General Pretraining Framework

1. はじめに

ウェブテキストで事前学習された大規模な言語モデルは、自然言語理解やテキスト生成など、さまざまなNLPタスクの技術水準を大幅に向上させてきました（Radfordら、2018a; Devlinら、2019; Yangら、2019; Radfordら、2018b; Raffelら、2020; Lewisら、2019; Brownら、2020）。また、下流のタスク性能だけでなく、パラメータの規模もここ数年で絶えず増加しています。一般的に、既存のプレトレーニングフレームワークは、augoregressiveモデル、autoencodingモデル、およびencoder-decoderモデルの3つのファミリーに分類されます。 GPT（Radford et al., 2018a）に代表される自己回帰モデルは、左から右への言語モデルを学習する。長文生成に成功し、数十億のパラメータにスケールアップしても強力な少数ショット学習能力を示しているが(Radford et al., 2018b; Brown et al., 2020)、一方的な注目メカニズムでは文脈トークンの相互作用を完全に捉えることができないという本質的な欠点がある。 BERT(Devlin et al., 2019)などのオートエンコーディングモデルは、ノイズ除去目的を介して文脈エンコーダーとして双方向トランスフォーマーを学習する。これらのエンコーダーは、自然言語理解タスクに優れた文脈化された表現を生成するが、テキスト生成に直接適用することはできなかった。エンコーダ-デコーダモデルは、エンコーダモデルには双方向の注意、デコーダモデルには一方向の注意、そしてそれらをつなぐクロスアテンションを採用している(Song et al., 2019; Bi et al., 2020)。これらは一般的に、テキスト要約や応答生成などの条件付きテキスト生成タスクに展開されます。表1では、さまざまな事前トレーニングフレームワークを比較しています。これらの事前トレーニングフレームワークの中で、すべてのNLPタスクで最高のパフォーマンスを発揮するものはない。これまでの研究では、マルチタスク学習によって目的を組み合わせることで、異なるフレームワークを統一しようとしてきた(Dong et al., 2019; Bao et al., 2020)。しかし、オートエンコーディングと自己回帰の目的は性質が異なり、単純な統一では両フレームワークの利点を十分に継承することができない。

本論文では、自己回帰的な空白充填に基づくGLMと呼ばれる新しい事前学習法を提案する。自動符号化の考え方に従って、入力テキストからトークンの連続したスパンをランダムに空け、自己回帰的な事前学習の考え方に従って、スパンを再構築するようにモデルを学習します。双方向性と単方向性の両方の注意メカニズムを1つのフレームワークで学習するために、入力テキストを2つの部分に分割し、マスクされていないトークンはお互いに注意を払うことができるが、マスクされたトークンは後続のマスクされたトークンに注意を払うことができないようにする。また、スパン間およびスパン内の位置情報を示すために、2次元の位置符号化技術を提案する。

図1は我々の事前学習の目的を示したものです。その結果、GLMは事前学習で文脈表現と自己回帰生成の両方を学習することができました。下流のタスクでモデルを微調整する際には、(Schick & Schutze ¨ , 2020a;b)にヒントを得て、ブランクフィリング生成として再定式化します。各タスクは、人間が作った暗号の質問に関連付けられており、モデルは暗号の答えを予測します。例えば、センチメント分類タスクは、「[SENTENCE]の空欄を埋める」と再定式化されます。 It's really ". 予測された "good "や "bad "は、感情がポジティブかネガティブかを示しています。このような定式化により、GLMは前処理と微調整の間に一貫性を持たせることができます。というのも、前処理も微調整も、文脈に応じてテキストを生成するようにモデルを訓練することになるからです。その結果、GLMは、BERTのようなモデルと比較して、下流の分類タスクに適しています。また、テキスト生成タスクに適した事前学習法を確立するために、マルチタスク事前学習の設定を検討しました。ここでは、マスクされたスパンを再構築し、より長いテキストを生成するようにモデルを共同で学習します。経験的には、同じ事前学習データと同程度の計算コストで、GLMはSuperGLUE自然言語理解ベンチマークにおいてBERTを4.6%～5.0%の大差で大幅に上回ることが示されました。また、GLMは、同じより大きなコーパス（158GB）で事前学習を行った場合、RoBERTa、T5、BARTを上回りました。さらに、マルチタスクの事前学習を行ったGLMは、単独のベースラインと比較して、パラメータを共有する理解、条件生成、言語モデリングのタスクで改善を達成することができました。

e4exp / paper_manager_abstract

All NLP Tasks Are Generation Tasks: A General Pretraining Framework #584

1. はじめに