DEMix Layers: Disentangling Domains for Modular Language Modeling

1 はじめに

従来の言語モデル(LM)学習アルゴリズムは，データの均質性を前提としており，すべてのパラメータは，すべてのデータの損失を最小化するように更新されます。このアプローチを「密な学習」と呼びます。

しかし，人間の言語は人間の経験と同じように多様であり，研究者がコーパスの基本的な部分集団を表すためにドメインという言葉を使うときには，この事実を間接的に言及していることが多い．密な学習は、データのバリエーションを暗黙のうちに発見することを可能にし(Aharoni and Goldberg, 2020)、モデルがすべてのドメインに等しくフィットすることを前提としている。密な学習は便利であり、密に学習されたLMは素晴らしい結果を得ることができるが(Brown et al., 2020)、このアプローチには、一般化、効率性、および柔軟性に関して欠点がある。

トレーニングデータが多くのドメインから調達されている場合でも、密なトレーニングは、実際には、アクセスの容易さに比例してデータのサブセットを強調することができ（Oren et al., 2019; Fan et al., 2020）、あまり普及していないドメインへの一般化が制限される。ネットワークのすべてのパラメータを更新することは、モデルのサイズが大きくなると実質的にコストが高くなり（Strubell et al.2019）、微調整やドメイン適応型プレトレーニング（DAPT; Gururangan et al.2020）を少ない計算予算で実行することが難しくなる。

また、元のデータを忘れずに新しいドメインに適応することが困難であったり（Aghajanyan et al., 2021）、学習中にLMが触れた特定のドメイン（例えば、ヘイトスピーチを含むドメイン；Bender et al. 2021）へのアクセスを制限することで、望ましくない行動をとるリスクにつながります（Gehman et al., 2020）。このような密度の高いトレーニングの限界に対処するために、我々は、LMはモジュール性を持って設計されるべきであると主張する。

我々は、トレーニングデータの異なるドメインに特化したコンポーネントを持ち、必要に応じてこれらの分離したコンポーネントを混合、追加、削除することで、推論時にカスタマイズ可能なモジュラーLMを提案する。この設計原理は、言語システムで広く提唱されている、学習後にLMを迅速に適応させる能力を強調するものである(Dinan et al., 2021; Lazaridou et al., 2021)。本研究では、新しいドメインエキスパート（DEMIX）層を用いてLMにモジュール性を導入する。この層は、入力テキストのドメインが既知の場合にはLMを明示的に条件付けし、既知でない場合には推論中に入力ドメインを推定する。 DEMIX層は、GPT-3などのトランスフォーマーズLMのフィードフォワード層の代わりに、ドメインごとに特化したバージョンの層（またはエキスパート）を作成するものである（図1、§3参照）1。 NLPではドメインの概念は厳密に定義されていませんが、DEMIXレイヤーを使ってLMを学習する際には、粗い実績カテゴリ（例えば、ドキュメントが医学研究論文かRedditの投稿か）を条件変数として使用します（§2）。 8つの異なるドメインのデータを用いてトレーニングを行うと、DEMIXレイヤーは一貫してドメイン内のパフォーマンスを向上させることがわかった（§4）。しかし、これらのカテゴリーは、トレーニングデータの最適な区分ではないかもしれないし、テスト時のドメインをカバーしていないかもしれないので、単純にテスト時に単一のドメインエキスパートを選択すると、一般化が損なわれる可能性がある。その代わりに、パラメータフリーの確率的アプローチを導入し、推論時にドメインの加重混合を動的に推定する(§5)。混合専門家は、テスト時の新規ドメインだけでなく、異質なトレーニングドメインからのテストデータに対しても、DEMIXの性能を向上させる。この結果は、モジュール性を導入することで、汎化性能を犠牲にする必要がないことを示唆している。

e4exp / paper_manager_abstract

DEMix Layers: Disentangling Domains for Modular Language Modeling #611

1 はじめに