yk-komatsu / paper

0 stars 0 forks source link

[2021] WebGPT: Browser-assisted question-answering with human feedback #2

Open yk-komatsu opened 1 year ago

yk-komatsu commented 1 year ago

Abstract

We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.

論文リンク

https://arxiv.org/abs/2112.09332

著者/所属機関

Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman

投稿日付 (yyyy/MM/dd)

2021/12/17

実装コード

どんなもの?

先行研究と比べてどこがすごい?

技術や手法のキモはどこ?

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?

yk-komatsu commented 1 year ago

背景

NLPにおける大きな課題として、オープンドメインの質問に対してパラグラフレベルの長さの (複雑な) 回答を生成する長文形式の質問応答 (long-form question answering: LFQA) がある。LFQAシステムは人々が学ぶ主要な方法となり得る可能性があるが、現在は人間のパフォーマンスとの間に差がある。既存研究では、情報検索と回答生成の2つのコアの構成要素に焦点を当てる傾向がある。

yk-komatsu commented 1 year ago

この研究のポイント

yk-komatsu commented 1 year ago

提案手法

概要

Environment design

本研究ではテキストベースのウェブブラウジング環境を設計した。
言語モデルは質問、現在のカーソル位置におけるウェブページのテキストなどの環境における現在の状態のサマリーを生成する。 (Figure 1 (b)) これを受けて、モデルはTable 1で与えられているコマンド (Bingでの検索を実行、リンクをクリック、スクロールなどのアクションを実行する) の一つを発行する。 モデルがブラウジングしている間、モデルが実行できるアクションの一つは現在のページからの抜粋を引用することであり、これが実行されると、ページのタイトル、ドメイン名、抜粋箇所がリファレンスとして記録される。ブラウジングは終了のコマンドが発行されるか、アクションの最大実行回数に到達するか、リファレンスの総数が最大値に達するまで続けられる。 image

image

Methods

Data collection

質問に回答するためにブラウザーを使う人間のデータを収集し、これをdemonstrationsと呼ぶ。demonstrationsのみの学習では回答の質を直接最適化できず、人間のパフォーマンスには遠く及ばないことが見込まれる [Stiennon et al., 2020]。そのため、同じ質問に対してモデルが生成した回答のペアを集めて、人間にどちらが良いかを質問した。このデータをcomparisonsと呼ぶ。 質問の大部分はELI5から取得し、質問の多様性と実験のためにTriviaQAなどの他のソースの質問も少量混ぜている。約6,000件のdemonstrationsを収集したがその92%の質問がELI5からのものである。また、約21,500件のcomparisonsデータの98%の質問はELI5からである。 demonstrationsのデータ収集のためにFigure 1 (a) のGUIを、comparisonsのデータ収集のためにFigure 9のGUIを準備した。 image

Training

GPT-3 (760 M, 13 B, 175 B) に対して、次の4つの学習法を用いた。

  1. Behavior cloning (BC)
    人間のデモンストレーターが発行したコマンドをラベルとして (demonstrationsデータ)、教師あり学習によりfine-tuningした。
  2. Reward modeling (RM)
    BCモデルの最終層 (unembedding layer) を取り除き、質問と回答(リファレンス付き)を入力とし、スカラーの報酬値を出力するモデルとして学習させる。
  3. Reinforcement learning (RL)
    PPO [Schulman et al., 2017] を使ってBCモデルをfine-tuningする (強化学習)。強化学習時に使用する報酬として、Reward modelが出力したスコアを用いる。
  4. Rejection sampling (best-of-n)
    BCモデルとRLモデルのどちらかから固定数 (4、16、64) の回答をサンプリングし (指定がない場合はBCモデルを使用)、Reward modelによって最も高くランク付けされたものを選択する。これは、Reward modelに対して最適化の代替として用いたもので、追加の学習は必要ないが、その代わりに推論時間の計算量が多くなる。