Open e4exp opened 3 years ago
生成的事前学習に関する最近の研究では、十分なデータと規模があれば(Kaplan et al., 2020; Henighan et al., 2020)、大規模な言語モデル(LM)は、明示的な監督なしに多様な一連のタスクを学習することができ(Radford et al., 2019)、これらのタスクに対するさらに強力なパフォーマンスは、数ショットのデモンストレーションを使用して引き出すことができる(Brown et al., 2020)ことが示されている。 数ショットのプロンプトは柔軟性があり、生成的に事前学習されたLMから、さらなる微調整なしに多様なNLPタスクの強力なパフォーマンスを引き出すことができますが、その利点は、相応の学習、推論、計算、およびデータのコストを伴う大規模なモデルで最も顕著になります。 さらに、マルチタスク学習を可能にする事前学習の目的が非常に一般的であることから、すぐにはわからないほどの知識を持つLMが生成され、それを完全に引き出すためには慎重に設計されたプロンプトが必要となる。 このような潜在的な能力を引き出して増幅させると同時に、数ショットのプロンプトのコストを削減したいという願望が、今回の研究の動機となっている。 これにより、テスト時の数ショットのプロンプトやトレーニング時の追加の監視に頼ることなく、モデルの微調整を続け、より小さなモデルからより多くの性能を得て、より大きなモデルをさらに進化させることができる。
本研究では、教師なしニューラル機械翻訳(NMT)の分野を対象としています。 NMTでは通常、弱い翻訳モデルをブートストラップしてから、逆翻訳によって翻訳能力を増幅させます。 教師なしNMTにおける最近の研究は、ブートストラップがデノイジング/オートエンコーディングタスクによって実装される大規模なエンコーダ-デコーダアーキテクチャに支配されてきた (例えば、多言語Cloze(Devlin et al, 2019; Conneau & Lample, 2019)、マスク付きスパン予測(Raffel et al., 2020; Xue et al., 2021)、破損した入力からの再構成(Wang et al., 2019; Liu et al., 2020))によってブートストラップが実装され、強力なエンコーダーとデコーディングのための整列した多言語表現を生成することを意図している。 本研究では、生成的言語モデリングのみで教師なしNMTパイプライン全体を実装できることを示し、生成的に事前学習された言語モデルのみを用いて最先端の教師なしNMTシステムを導出します。 まず、GPT-3から少数のゼロショット翻訳をサンプリングしてブートストラップを実施します。 次に、これらを数ショットのプロンプトとして使用し、より大きな合成翻訳のデータセットをサンプリングします。 次に、数ショットのプロンプトを廃棄し、生成されたサンプルは、ゼロショット形式の合成データ上でモデルを微調整することによって抽出されます。 これにより、私たちの翻訳形式に合わせた言語モデルが生成され、大規模な逆翻訳にも対応できるようになります。 GPT-3のゼロショット翻訳機能を活用した本手法により、WMT14英仏語ベンチマークにおいて、教師なし翻訳の最先端であるBLEUスコア42.1を達成しました。
本稿では、生成的に事前学習された言語モデルから、最先端の教師なしニューラル機械翻訳システムを導き出す方法を示す。 本手法は、少数ショット増幅、蒸留、逆翻訳の3つのステップで構成される。 まず、大規模な事前学習済み言語モデルのゼロショット翻訳能力を利用して、ラベルのない小さな文のセットに対する翻訳を生成します。 次に、これらのゼロショット翻訳を、より大きな合成データセットをサンプリングするための数ショットのデモンストレーションとして使用することで、増幅します。 このデータセットは、数ショットのデモを破棄し、微調整を行うことで抽出されます。 逆翻訳の際には、入力のセットに対して翻訳を生成し、翻訳タスクの両方向に対して1つの言語モデルを一度に微調整することを繰り返し、微調整の際に金単文と生成された翻訳の役割を入れ替えることで、サイクルの一貫性を確保します。 GPT-3のゼロショット翻訳機能を活用した本手法により、WMT14英仏語ベンチマークにおいて、教師なし翻訳の最新技術であるBLEUスコア42.1を達成しました。