Open e4exp opened 3 years ago
自然言語タスクのための少数ショット学習に関する最近の研究では、モデル・パラメータ(Brown et al., 2020)またはラベル付き例(Le Scao and Rush, 2021)のいずれかの変数を定数に設定して制御しながら、その数をスケールアップするダイナミクスを探っている。 例えば、Brownら(2020)は、およそ32から64の例からのコンテキスト内学習に焦点を当てていますが、これは微調整アプローチでも採用されました(Schick and Schutze ¨ , 2021b; Gaoら, 2021b; Tamら, 他の研究では、単一サイズのモデルで実験していますが(Schick and Schutze, 2020; Ram et al., 2021; Le Scao and Rush, 2021; Gao et al., 2021b)、より大きな(または小さな)モデルでは異なる動作を示す可能性があります。 さらに、この文献の多くは分類タスクに焦点を当てており(Schick and Schutze ¨ , 2021a; Gao et al., 2021b; Le Scao and Rush, 2021)、その結論が出力空間の制限が少ないタスクに一般化するかどうかは不明である。 本論文では、言語タスクのための少数ショット学習の体系的な調査を行う。 ここでは、分類だけでなく、抽出型、多肢選択型、オープンクエスチョンアンサーを含む様々なタスクにおいて、ターゲットタスクのラベル付き例の数(32から2048まで)に対してモデルパラメータの数(自己教師付きT5(Raffel et al. ハイパーパラメータとランダムシードを制御するために,7,680個のモデルを学習することで,192のシナリオを評価した.
実験の結果、驚くべきことに、追加パラメータと追加ラベル付き例の貢献度は、タスクの形式に大きく依存することがわかった。 オープンドメイン版のNatural Questions(Kwiatkowski et al., 2019; Lee et al., 2019)のように、事前トレーニング中に見た特定の情報をモデルに想起させる必要があるオープンQAタスクでは、トレーニングセットを大きくしてもパフォーマンスは向上しない。 対照的に、モデルパラメータの数を増やすと、大幅な向上が見られる(図1のTriviaQA(Joshi et al.2017)を参照)。 したがって、オープンなQAを扱う場合、モデルパラメータは計り知れない価値があり、ラベル付き例の数を増やすことで置き換えることはできません。 一方、分類、抽出型QA、多肢選択型タスクでは、全く異なる傾向が見られます。 これらのタスクは、トレーニングセットとモデルの両方を拡大することで利益を得ることができます(図1のSQuAD 2(Rajpurkar et al.2018)を参照)。
我々は、数百の例はしばしば数十億のパラメータに「価値がある」ことを観察しています。 4倍のデータで微調整されたT5-Lは、4倍のパラメータ数を持つT5- XLとほぼ競合します。 さらに、一部のタスクではラベル付きの例題が非常に有益であり、512個のデータポイントを集めるだけでも、微調整されたT5-L(8億個のパラメータ)がGPT-3(1億7500個のパラメータ)を上回ることができます。
最後に、オープンQAとは異なり、出力空間が制限されている形式では、少量のラベル付きデータから学習できる解法(消去法など)があるのではないかという仮説を立てました。 この仮説はまた、非重複データ(Lewis et al.2021)でテストした場合に、無駄のないretrieve-and-readアプローチ(DrQA(Chen et al.2017)、ORQA(Lee et al.2019)、DPR(Karpukhin et al.2020)など)が、数十億パラメータのクローズドブックモデル(Roberts et al.2020)よりもロバストであるように見える理由について、可能な説明を提供します。
本研究では,様々なタスクにおいて,モデルのパラメータ数とラベル付けされた例の数を増加させたときのダイナミクスを調査した. その結果,パラメータの数を増やすと一貫して性能が向上する一方で,追加の例の貢献度はタスクの形式に大きく依存することがわかった. 具体的には,オープンな質問応答タスクでは,トレーニングセットを大きくしてもパフォーマンスは向上しない. 一方、分類、抽出型質問応答、多肢選択などのタスクでは、数百の例を集めることで数十億のパラメータを集める価値があるほど、追加の例から大きな恩恵を受けます。 我々は、特定の情報を思い出すことを必要とする公開質問応答とは異なり、より限定された出力空間を持つタスクの解法戦略は、例を超えて伝達されるため、少量のラベル付きデータでも学習できるという仮説を立てた。