[2021] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS

IkokObi commented 2 years ago

ざっくり言うと

GPT-3などのzero-shotで使われているpromptingの考えと、pretrain-finetuneの考えを組み合わせた"instruction tuning"を提案した。"instruction tuning"は入力文内にタスク内容の説明文を含める学習方法で、タスクの説明文からその問題の解き方を学習させたいという意図がある。結果としてzero-shotの精度を向上させ、多くのタスクにおいてGPT-2のzero-shotモデルを超え、一部ではGPT-3のfew-shot学習モデルをも超えた。

キーワード

zero-shot learning
language model
prompting

1. 情報

論文リンク

https://arxiv.org/abs/2109.01652

著者

Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le Google Research

投稿日付

2021/10/5

2. 先行研究と比べてどこがすごい？

zero-shot学習の精度比較において、20/25でGPT-3を超えた
6つのタスクではfew-shotのGPT-3の精度を超えた

3. 技術や手法のキモはどこ？

タスク内容の説明文を入力内に含ませたうえで(prompting)、個々のfine-tuningタスクを学習させている。これにより新規タスクでもpromptを活用することで精度が向上すると考えられる。
- prompt自体は、汎用言語モデルを使ってzero-shotを行う方法としてに既に使われている

4. どうやって有効だと検証した？

62個のデータセットをタスクのカテゴリに分割し、カテゴリ毎のleave-one-out CVみたいな感じでzero-shotの精度を検証している

5. 議論はある？

学習するタスクのクラスタ数を増やすと精度は上がる(Figure 5)
学習するタスクの各クラスタ内のデータセット数を増やすと精度は上がる(Figure 8)
モデルサイズを変えて"instruction tuning"の効果を検証しており、100 Billionパラメータ以上で改善効果が大きくなる(Figure 6)
各タスクの精度に関しては依然としてfine-tuningされたBERTやT5の方が高い
- あくまでzero-shot(, few-shot)でGPT-3を大きく上回ったという結果の論文

6. 次に読むべき論文は？

Language Models are Few-Shot Learners
- Author多数
- NeurIPS 2020(初版は2020/5/28)
- https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
- GPT-3の論文
Exploring the limits of transfer learning with a unified text-to-text transformer
- Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
- 2019/10/23
- https://arxiv.org/abs/1910.10683
- T5の論文

IkokObi commented 2 years ago

7. 実装の詳細

命名はFLAN: Finetuned LAnguage Net
モデル構造については、"dense left-to-right, decoder-only transformer language model of 137B parameters"という感じの記載で、Vaswani et al., 2017 (Attention is all you need)のdecoderのみ
- パラメータ数の参考までに、BERT largeは0.34B、GPT-3は175B
タスク内容を説明するpromptはデータセット毎にテンプレートを10個作成している
分類タスクを解く際は入力文内に答えるべきクラス一覧を含めるようにしている。GPT-3の論文では各クラス毎に名前を決めてそのクラス名の出力確率を元に分類していたが、クラス名の同義語の存在などにより出力確率が下がる懸念がある。（下記図のイメージ）

IkokObi commented 2 years ago

8. データセット

各タスクの詳細はAppendix Fに記載されている。

IkokObi commented 2 years ago

9. 結果の詳細

62個のデータセット全結果については論文の本文及びAppendixに記載
NLI（パラグラフに基づいたQA）, reading comprehensionでは大きな改善が見られ、GPT-3のfew-shotを超えるものも多かった
翻訳ではGPT-3のzero-shotは超えているが、few-shotを超える程ではなかった
commonsense reasoningと共参照（文章内の穴埋めタスク）では"instruction tuning"をする前の言語モデル(Base LM)のzero-shotより悪いケースが見られた
- 事前学習と似たタスクだと効果が薄いのではと議論されている
その他のGPT-3が評価されていないtaskでは、基本的にはBase LMのzero-shotを超えていた（一部few-shotも超えていた）
summarizationは入力長がtoken数の上限を超えることが多かったため、評価はせず学習のみ（Appendix A）

IkokObi commented 2 years ago

雑感&メモ

"instruction tuning"はMAMLに近いかもと思った
- MAMLは学習の仕方を学習する、"instruction tuning"はタスク毎の推論の方法を学習する、というイメージ

karakuri-ai / paper-readings