e4exp / paper_manager_abstract

0 stars 0 forks source link

Demystify Optimization Challenges in Multilingual Transformers #382

Open e4exp opened 3 years ago

e4exp commented 3 years ago

Multilingual Transformerはパラメータの効率化とクロスリンガルトランスファーを向上させます。 多言語モデルを効果的に訓練する方法はあまり研究されていません。 本研究では、多言語機械翻訳をテストベッドとして使用し、ロス・ランドスケープとパラメータ・プラティシティの観点から最適化の課題を研究しています。 その結果、不均衡な学習データは、高リソース言語と低リソース言語の間でタスクの干渉を引き起こすことを発見した。 その特徴は、主要なパラメータの勾配がほぼ直交しており、最適化の軌跡はほとんど高リソースに支配されていることである。 我々は、損失面の局所的な曲率が干渉の度合いに影響することを示し、データのサブサンプリングという既存のヒューリスティクスが暗黙のうちに鋭さを減少させることを示したが、それでも高リソース言語と低リソース言語の間にはトレードオフの関係がある。 本研究では、原理的な多目的最適化アルゴリズムであるCurvature Aware Task Scaling (CATS)を提案し、特に低リソースでの最適化と一般化の両方を改善する。 TED、WMT、OPUS-100ベンチマークを用いた実験により、CATSは精度のパレートフロントを向上させるとともに、100言語規模の大規模な多言語環境にも効率的に適用できることを示した。

e4exp commented 3 years ago
  1. はじめに

一般的な自然言語処理(NLP)において、多言語モデルが注目されています(Liu et al. 異言語間の伝達を活用し、学習効率を向上させるというメリットがあります。 多言語機械翻訳の課題は、複数の言語ペア間で高品質な翻訳を実現するモデルを1つ持つことを目的としています。 これは、多言語NLPおよびマルチタスク学習(MTL)における重要かつ挑戦的なアプリケーションです。(Johnson et al., 2017; Aharoni et al., 2019; Arivazhagan et al., 2019; Lepikhin et al., 2020; Ruder, 2017; Li et al., 2020)。 しかし、多言語モデルは、積極的なクロスリンガル・トランスファーの恩恵を受けるとは限らない。 言語的特徴が異なる言語でトレーニングすると負の伝達(干渉)が起こり、1対多のタスク(複数言語への翻訳)は、多対1のタスク(多言語から単一のターゲット言語への翻訳)よりも多言語トレーニングの恩恵が少ないことが経験的に示されています(Arivazhagan et al.2019; Tang et al.2020)。 その原因は、言語の多様性とモデル容量の制限にあると仮説が立てられており、言語の近接性に基づく言語クラスタでの多言語モデルのトレーニング(Sachan & Neubig, 2018; Tan et al., 2019)や、モデル容量のスケールアップ(Lepikhin et al., 2020; Fan et al., 2020; Fedus et al.

最適化の観点から干渉に取り組んだ先行研究はほとんどなく、最適化の手順が言語間の伝達や干渉にどのように関係しているかは不明である。 本論文では、多言語モデル学習中の最適化ダイナミクスと、その言語間干渉(タスク)への影響を理解することを目的としている。 まず、多言語モデルの最適化目的を分析した。 現在の実務では見落とされたり、ヒューリスティックに基づいて選択されたりすることが多い、タスクの重み付けという重要な最適化の選択があることを指摘する。 次に、多言語翻訳において最適化の課題となる2つの重要な要因、損失地形の局所的な曲率とパラメータの可塑性について研究した。 曲率は干渉の度合いに影響することを示しています。 つまり、ある言語からの勾配更新が他の言語の損失にどのように影響するかということです。 経験的には、学習例の量が言語(タスク)間で不均衡な場合、これが最適化の課題となることを発見した。 これは、通常、少数の高リソース言語とロングテールの低リソース言語を含む、多言語シーケンスモデリングアプリケーションに共通のタスク分布である(Arivazhagan et al., 2019; Zhang et al., 2020; Conneau et al., 2019; Xue et al., 2020)。 具体的には、シェアード・ロス・ランドスケープは、学習の初期段階では低リソースの言語によってシャープネスが引き起こされやすく、残りの最適化の軌跡は高リソースの言語によって支配されることを示します。 データスケジューリングにおける一般的なヒューリスティクス(温度ハイパーパラメータに基づいて低リソースをアップサンプリングするなど)は、初期段階では暗黙的に局所的な曲率を低減するが、学習の後期段階では低リソース言語が無視されたりオーバーフィットされたりするという課題に直面することを示す。 また、Transformerアーキテクチャの様々なパラメータの最適化動作を詳細に分析しました。 まず、主要なパラメータについては、高リソース言語と低リソース言語の間の勾配はほぼ直交しており、パラメータの部分的な共有によりパラメータの可塑性を高めることで、積極的な異言語間伝達を減らすとともに、干渉を緩和することがわかった。 第二に、層規範パラメータのグラデーションは、他のパラメータに比べて分散が大きい。 経験的には、レイヤーノルムのパラメータ(ゲインとバイアス)を単純な正規化操作で置き換えることで、低リソース言語のオーバーフィット問題を軽減できることがわかった。 これらの知見に基づき、局所的な曲率を明示的に正則化するというメタ目的を持つタスク重み付けを学習することで、原理的な多目的最適化アルゴリズムを提案する(Curvature-Aware Task Scaling, CATS)。 CATSは、リサンプリングによる静的なタスク重み付けと比較して、最適化と一般化のパレートフロントを改善する。 CATSは、TED、WMT、OPUS-100などの多言語翻訳の一般的なベンチマークにおいて、リソースの低い言語を改善してリソースの高い言語を犠牲にする、 あるいはその逆を行う現在のトレーニング手法と比較して、高い精度(BLEUスコア)を達成しています。 また、CATSは、100言語規模の大規模な多言語環境におけるサンプル効率とスケーラビリティを示しています。

e4exp commented 3 years ago

image image image image image image image image image image

e4exp commented 3 years ago
  1. 結論

本作では、多言語機械翻訳をケーススタディとして、多言語学習における最適化の課題を詳細に分析しました。 学習の目的を分析し、現在の研究では見落とされがちな重要な最適化の選択を指摘した。 また、多言語モデルを学習する際に最適化の課題となる2つの要因、すなわち、局所的な曲率とパラメータの可塑性について研究しました。 分析と実験の結果、タスクからの歪んだトレーニングデータ分布を用いてトレーニングを行うと、低リソース損失のランドスケープに大きな曲率があり、その後、高リソースのタスクが最適化軌道の残りの部分を支配するという特徴があり、干渉が生じることがわかった。 また、Transformerアーキテクチャのさまざまなパラメータを細かく見ていくと、主要なパラメータでは勾配がほぼ直交しており、パラメータの共有を減らしてパラメータの可塑性を高めることで干渉を緩和することができますが、その代償として正の伝達がなくなることが経験的にわかっています。 興味深いことに、層の正規化パラメータの勾配調整は非常に高い分散を持っており、ゲインとバイアスのパラメータを単純な正規化に置き換えることで、リソースの少ない言語のオーバーフィットを減らすことができることがわかりました。 これらの観察結果に基づいて、局所的な曲率を明示的に正則化する目的でタスクの重み付けを自動的に学習する原理的な最適化アルゴリズムを提案し、最適化の改善に有効であることを実証しました。 主要な多言語翻訳ベンチマークにおいて、この最適化アルゴリズムは、精度とサンプル効率の向上を示し、しかも100言語からなる大規模な多言語環境でも効率的に適用することができました。 我々の分析と結果は、最適化の観点から見た異言語間翻訳に関する新たな知見をもたらし、モデル容量の増加と効果的なパラメータ共有戦略による干渉の低減に関する研究の高まりを補完するものである。