e4exp / paper_manager_abstract

0 stars 0 forks source link

DEMix Layers: Disentangling Domains for Modular Language Modeling #611

Open e4exp opened 2 years ago

e4exp commented 2 years ago

本研究では、入力テキストのドメインに応じて言語モデル(LM)を調整することができる、新しいドメインエキスパート混合(DEMix)層を導入しています。 DEMix層は、それぞれがドメインに特化した専門家のフィードフォワードネットワークの集合体であり、これによりLMをモジュール化することができる。 DEMix層は、テスト時の複雑さを軽減し、学習効率を高め、わずかなオーバーヘッドで迅速な適応を可能にすることが、自己回帰トランスフォーマーLM(最大1.3Bのパラメータ)を用いた大規模な実験で示されています。 また、パラメータフリーの重み付きアンサンブルを用いて、推論時にエキスパートを混合することで、異質なドメインや未知のドメインに対するモデルの一般化が向上することを示しています。 また,エキスパートを追加することで,古いドメインを忘れることなく新しいドメインを繰り返し取り込むことができ,エキスパートを削除することで不要なドメインへのアクセスを制限することができることも示した. これらの結果は、言語モデリングの際に、テキストのドメインを明示的に条件付けすることの利点を示している。

e4exp commented 2 years ago

1 はじめに

従来の言語モデル(LM)学習アルゴリズムは,データの均質性を前提としており,すべてのパラメータは,すべてのデータの損失を最小化するように更新されます。 このアプローチを「密な学習」と呼びます。

しかし,人間の言語は人間の経験と同じように多様であり,研究者がコーパスの基本的な部分集団を表すためにドメインという言葉を使うときには,この事実を間接的に言及していることが多い. 密な学習は、データのバリエーションを暗黙のうちに発見することを可能にし(Aharoni and Goldberg, 2020)、モデルがすべてのドメインに等しくフィットすることを前提としている。 密な学習は便利であり、密に学習されたLMは素晴らしい結果を得ることができるが(Brown et al., 2020)、このアプローチには、一般化、効率性、および柔軟性に関して欠点がある。

トレーニングデータが多くのドメインから調達されている場合でも、密なトレーニングは、実際には、アクセスの容易さに比例してデータのサブセットを強調することができ(Oren et al., 2019; Fan et al., 2020)、あまり普及していないドメインへの一般化が制限される。 ネットワークのすべてのパラメータを更新することは、モデルのサイズが大きくなると実質的にコストが高くなり(Strubell et al.2019)、微調整やドメイン適応型プレトレーニング(DAPT; Gururangan et al.2020)を少ない計算予算で実行することが難しくなる。

また、元のデータを忘れずに新しいドメインに適応することが困難であったり(Aghajanyan et al., 2021)、学習中にLMが触れた特定のドメイン(例えば、ヘイトスピーチを含むドメイン;Bender et al. 2021)へのアクセスを制限することで、望ましくない行動をとるリスクにつながります(Gehman et al., 2020)。 このような密度の高いトレーニングの限界に対処するために、我々は、LMはモジュール性を持って設計されるべきであると主張する。

我々は、トレーニングデータの異なるドメインに特化したコンポーネントを持ち、必要に応じてこれらの分離したコンポーネントを混合、追加、削除することで、推論時にカスタマイズ可能なモジュラーLMを提案する。 この設計原理は、言語システムで広く提唱されている、学習後にLMを迅速に適応させる能力を強調するものである(Dinan et al., 2021; Lazaridou et al., 2021)。 本研究では、新しいドメインエキスパート(DEMIX)層を用いてLMにモジュール性を導入する。 この層は、入力テキストのドメインが既知の場合にはLMを明示的に条件付けし、既知でない場合には推論中に入力ドメインを推定する。 DEMIX層は、GPT-3などのトランスフォーマーズLMのフィードフォワード層の代わりに、ドメインごとに特化したバージョンの層(またはエキスパート)を作成するものである(図1、§3参照)1。 NLPではドメインの概念は厳密に定義されていませんが、DEMIXレイヤーを使ってLMを学習する際には、粗い実績カテゴリ(例えば、ドキュメントが医学研究論文かRedditの投稿か)を条件変数として使用します(§2)。 8つの異なるドメインのデータを用いてトレーニングを行うと、DEMIXレイヤーは一貫してドメイン内のパフォーマンスを向上させることがわかった(§4)。 しかし、これらのカテゴリーは、トレーニングデータの最適な区分ではないかもしれないし、テスト時のドメインをカバーしていないかもしれないので、単純にテスト時に単一のドメインエキスパートを選択すると、一般化が損なわれる可能性がある。 その代わりに、パラメータフリーの確率的アプローチを導入し、推論時にドメインの加重混合を動的に推定する(§5)。 混合専門家は、テスト時の新規ドメインだけでなく、異質なトレーニングドメインからのテストデータに対しても、DEMIXの性能を向上させる。 この結果は、モジュール性を導入することで、汎化性能を犠牲にする必要がないことを示唆している。