Rethinking embedding coupling in pre-trained language models

e4exp commented 3 years ago

https://arxiv.org/abs/2010.12821
2020

本稿では、最新の学習済み言語モデルにおいて、入力埋め込みと出力埋め込みの間で重みを共有するという標準的な手法を再評価する。その結果、非結合型の埋め込みによってモデリングの柔軟性が向上し、多言語モデルの入力埋め込みにおけるパラメータ割り当ての効率を大幅に改善できることを示した。入力エンベッディングのパラメータをTransformer層で再配分することで、微調整時に同じ数のパラメータで標準的な自然言語理解タスクの性能を劇的に向上させることができる。また、出力エンベッディングに追加の容量を割り当てることで、出力エンベッディングが事前学習後に破棄されたとしても、微調整の段階でモデルに持続的な利益をもたらすことを示す。これは、出力エンベッディングを大きくすることで、モデルの最後の層が訓練前のタスクに過度に特化することを防ぎ、Transformerの表現をより一般的なものにして、他のタスクや言語への移植性を高めることができるという分析結果です。これらの知見を活用することで、微調整段階でパラメータ数を増やすことなく、XTREMEベンチマークで強力なパフォーマンスを達成するモデルを学習することができます。

e4exp commented 3 years ago

1 INTRODUCTION

自然言語処理（NLP）におけるモデルの性能は、主に大量のラベルなしデータからの転移学習の進歩により、近年劇的に向上しています（Howard & Ruder, 2018; Devlin et al. 最も成功したパラダイムは、大規模なTransformer（Vaswani et al., 2017）モデルを自己教師付き損失で事前学習し、それを下流のタスクのデータで微調整することで構成されている（Ruder et al., 2019）。その経験的な成功にもかかわらず、訓練期間（Liu et al., 2019b）、訓練前の目的（Clark et al., 2020b）、および訓練データ（Conneau et al., 2020a）などに関連する非効率性が観察されている。本論文では、同様に広く実用的な影響を与える可能性のあるモデル化の前提を再考します。それは、最先端の事前学習済み言語モデルにおける入力と出力のエンベッディング1の結合です。最先端の事前学習済み言語モデル（Devlin et al., 2019; Liu et al., 2019b）とその多言語対応モデル（Devlin et al., 2019; Conneau et al., 2020a）は、言語モデルの先達（Press & Wolf, 2017; Inan et al., 2017）から埋め込み結合の慣習を受け継いでいる。しかし、言語モデルの対応者とは対照的に、Devlinら（2019）のようなエンコーダのみの事前学習モデルにおけるエンベッディングカップリングは、出力エンベッディングが一般的に微調整後に破棄されるため、事前学習時にしか有用ではありません2。さらに、研究者が事前学習中の追加計算を下流のパフォーマンス向上と交換することに意欲的であること(Raffel et al., 2020; Brown et al., 2020)や、事前学習済みモデルが数百万回の推論に使用されることが多いこと(Wolf et al., 2019)を考えると、事前学習に特化したパラメータの節約は全体的にあまり重要ではありません。一方で、入力と出力の埋め込みを結びつけると、モデルは両方の埋め込みに同じ次元を使用するように制約されます。この制約により、研究者がモデルをパラメータ化する際の柔軟性が制限され、入力エンベッディングに過剰な容量を割り当てることになり、無駄が生じる可能性があります。これは特に多言語モデルで問題となります。高次元の埋め込みを持つ大規模な語彙を必要とするモデルでは、パラメータ予算全体の47〜71%を占めており（表1）、非効率なパラメータ割り当てを示唆しています。

本論文では，多言語モデルに焦点を当て，事前学習済みの最先端の言語モデルにおける埋め込み結合の影響を系統的に研究した．まず、入力と出力の埋め込みパラメータを単純に分離しても、下流の評価指標は一貫して向上しませんが、形状を分離することで多くの利点が得られます。特に、入力と出力の埋め込み寸法を独立して変更することができます。我々は、下流の性能に影響を与えることなく、入力エンベッディングの寸法を安全に縮小できることを示した。また、出力エンベッディングは事前学習後に廃棄されるため、その寸法を大きくすることで、微調整の精度が向上し、他の容量拡張戦略よりも優れた結果を得ることができました。保存されたパラメータをTransformer層の幅と深さに再投資することで、さらに、XTREMEベンチマーク（Hu et al., 2020）の多言語タスクにおいて、強力なmBERT（Devlin et al., 2019）ベースラインを上回る大幅な性能向上を達成しています。

最後に、我々の技術を組み合わせたRebalanced mBERT（RemBERT）モデルでは、3.5倍少ないトークンと10以上の言語で事前学習されているにもかかわらず、最先端のクロスリンガルモデルであるXLM-R（Conneau et al.、2020a）を凌駕しています。エンベッディングデカップリングの利点の理由を徹底的に調べました。埋め込みサイズを大きくすることで、モデルの事前学習が向上し、それが下流のパフォーマンスにつながることがわかりました。また、特に最上層のモデルでは、タスクや言語を超えたトランスフォーマーの構築が可能になることも分かりました。全体として、出力エンベッディングを大きくすることで、モデルの最後の層が学習前のタスクに過度に特化することを防ぎ（Zhang et al.2020; Tamkin et al.2020）、より一般的なTransformerモデルの学習が可能になります。

e4exp commented 3 years ago

7 おわりに

我々は，学習済みの言語モデルにおける埋め込み結合の影響を評価した．結合解除されたエンベッディングの主な利点は，その形状を解除することで得られる柔軟性であることがわかった．また、入力埋め込みを安全に減らすことができ、出力埋め込みを大きくしたり、節約したパラメータを再投資したりすることで、性能が向上することを示しました。我々のリバランス多言語BERT（RemBERT）は、3.5倍少ないトークンで学習したにもかかわらず、同じ数の微調整パラメータでXLM-Rを上回った。全体的に、より大きな出力埋め込みは、特にTransformerの上層部において、より伝達可能でより一般的な表現につながることがわかりました。

e4exp / paper_manager_abstract

Rethinking embedding coupling in pre-trained language models #446