URL

https://arxiv.org/pdf/2204.07705
Affiliations
- Yizhong Wang, N/A
- Swaroop Mishra, N/A
- Pegah Alipoormolabashi, N/A
- Yeganeh Kordi, N/A
- Amirreza Mirzaei, N/A
- Anjana Arunkumar, N/A
- Arjun Ashok, N/A
- Arut Selvan Dhanasekaran, N/A
- Atharva Naik, N/A
- David Stap, N/A
- Eshaan Pathak, N/A
- Giannis Karamanolakis, N/A
- Haizhi Gary Lai, N/A
- Ishan Purohit, N/A
- Ishani Mondal, N/A
- Jacob Anderson, N/A
- Kirby Kuznia, N/A
- Krima Doshi, N/A
- Maitreya Patel, N/A
- Kuntal Kumar Pal, N/A
- Mehrad Moradshahi, N/A
- Mihir Parmar, N/A
- Mirali Purohit, N/A
- Neeraj Varshney, N/A
- Phani Rohitha Kaza, N/A
- Pulkit Verma, N/A
- Ravsehaj Singh Puri, N/A
- Rushang Karia, N/A
- Shailaja Keyur Sampat, N/A
- Savan Doshi, N/A
- Siddhartha Mishra, N/A
- Sujan Reddy, N/A
- Sumanta Patro, N/A
- Tanay Dixit, N/A
- Xudong Shen, N/A
- Chitta Baral, N/A
- Yejin Choi, N/A
- Noah A. Smith, N/A
- Hannaneh Hajishirzi, N/A
- Daniel Khashabi, N/A
  Abstract
- How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our collection covers 76 distinct task types, including but not limited to classification, extraction, infilling, sequence tagging, text rewriting, and text composition. This large and diverse collection of tasks enables rigorous benchmarking of cross-task generalization under instructions -- training models to follow instructions on a subset of tasks and evaluating them on the remaining unseen ones. Furthermore, we build Tk-Instruct, a transformer model trained to follow a variety of in-context instructions (plain language task definitions or k-shot examples). Our experiments show that Tk-Instruct outperforms existing instruction-following models such as InstructGPT by over 9% on our benchmark despite being an order of magnitude smaller. We further analyze generalization as a function of various scaling parameters, such as the number of observed tasks, the number of instances per task, and model sizes. We hope our dataset and model facilitate future progress towards more general-purpose NLP models.
  Translation (by gpt-4o-mini)
NLPモデルは、タスクの指示が与えられたときに、さまざまな未見のタスクにどの程度一般化できるのでしょうか？この問いに対処するために、まずSuper-NaturalInstructionsを導入します。これは、1,616の多様なNLPタスクとそれに対する専門家によって書かれた指示のベンチマークです。私たちのコレクションは、分類、抽出、埋め込み、シーケンスタギング、テキストの書き換え、テキストの構成など、76種類の異なるタスクタイプをカバーしています。この大規模で多様なタスクのコレクションは、指示に基づくクロスタスク一般化の厳密なベンチマークを可能にします。具体的には、モデルを一部のタスクに対する指示に従うように訓練し、残りの未見のタスクで評価します。さらに、さまざまな文脈内の指示（平易な言語のタスク定義やk-shotの例）に従うように訓練されたトランスフォーマーモデルであるTk-Instructを構築しました。実験の結果、Tk-Instructは、私たちのベンチマークにおいて、InstructGPTなどの既存の指示に従うモデルを9%以上上回る性能を示しましたが、そのサイズは桁違いに小さいです。さらに、観測されたタスクの数、タスクごとのインスタンス数、モデルサイズなど、さまざまなスケーリングパラメータの関数として一般化を分析します。私たちのデータセットとモデルが、より汎用的なNLPモデルに向けた今後の進展を促進することを期待しています。
Summary (by gpt-4o-mini)
Super-NaturalInstructionsを用いて、NLPモデルの未見タスクへの一般化能力を評価。1,616の多様なタスクと指示を含むベンチマークを作成し、76種類のタスクタイプをカバー。Tk-Instructモデルは、指示に従う訓練を受け、InstructGPTを9%以上上回る性能を示す。一般化能力をスケーリングパラメータに基づいて分析し、汎用的なNLPモデルの進展を促進することを目指す。

AkihikoWatanabe / paper_notes

Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22 #1474

URL

Affiliations

Abstract

Translation (by gpt-4o-mini)

Summary (by gpt-4o-mini)

Instruction Tuningにおける未知のタスクに対する汎化性能について、3つの要素に対するスケーリングについて考察

Instructionをさまざまに変化させた時の性能の変化に対する分析