[2021] WebGPT: Browser-assisted question-answering with human feedback

yk-komatsu commented 1 year ago

Abstract

We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.

論文リンク

https://arxiv.org/abs/2112.09332

著者/所属機関

Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman

OpenAI

投稿日付 (yyyy/MM/dd)

2021/12/17

実装コード

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

yk-komatsu commented 1 year ago

背景

NLPにおける大きな課題として、オープンドメインの質問に対してパラグラフレベルの長さの (複雑な) 回答を生成する長文形式の質問応答 (long-form question answering: LFQA) がある。LFQAシステムは人々が学ぶ主要な方法となり得る可能性があるが、現在は人間のパフォーマンスとの間に差がある。既存研究では、情報検索と回答生成の2つのコアの構成要素に焦点を当てる傾向がある。

yk-komatsu commented 1 year ago

この研究のポイント

fine-tuningした言語モデルが相互作用できるテキストベースのウェブブラウジング環境を構築した。これにより、模倣学習や強化学習のような手法を使ってend-to-end形式で情報検索と回答生成の両方を改善できる。
webページからモデルが抽出した文に対してリファレンス付きで回答を作成する。これは回答の事実確認に役立つ。

yk-komatsu commented 1 year ago

提案手法

概要

ドキュメント検索にはMicrosoftのBing Web Search API、回答生成にはfine-tuningしたGPT-3を用いる。
モデルは主にELI5を使って学習する。また、これに加えて以下の2種類のデータを収集した。
- Demonstrations: 人が質問に回答するためにウェブブラウジング環境を使ったデータ
- Comparisons: 同じ質問に対してモデルが生成した2つの回答の比較
回答は事実の正確性、一貫性、全体の有用性で判断する。
提案手法は以下から構成され、最良のモデルはBehavior cloningと棄却サンプリングを組合せて使用する。
- Demonstrationsを使ったBehavior cloning
- Comparisonsを使ったReward modeling
- Reward modelに対する強化学習
- Reward modelに対する棄却サンプリング
以下の3つの方法で評価する。
- モデルの回答と人間 (demonstrator) が書いた回答を比較する。
  - 56 %の確率でモデルの回答が好まれた。
- モデルの回答とELI5データセットで最も投票された回答を比較する。
  - 69 %の確率でモデルの回答が好まれた。
- 短文形式の質問応答に関する敵対的データセットである TruthfulQAでモデルを評価する。
  - モデルの回答は75 %正しく、54 %の確率で正しく有益であり、GPT-3の性能を上回ったが、人間のパフォーマンスには達していない。

Environment design

本研究ではテキストベースのウェブブラウジング環境を設計した。
言語モデルは質問、現在のカーソル位置におけるウェブページのテキストなどの環境における現在の状態のサマリーを生成する。 (Figure 1 (b)) これを受けて、モデルはTable 1で与えられているコマンド (Bingでの検索を実行、リンクをクリック、スクロールなどのアクションを実行する) の一つを発行する。モデルがブラウジングしている間、モデルが実行できるアクションの一つは現在のページからの抜粋を引用することであり、これが実行されると、ページのタイトル、ドメイン名、抜粋箇所がリファレンスとして記録される。ブラウジングは終了のコマンドが発行されるか、アクションの最大実行回数に到達するか、リファレンスの総数が最大値に達するまで続けられる。

Methods

Data collection

質問に回答するためにブラウザーを使う人間のデータを収集し、これをdemonstrationsと呼ぶ。demonstrationsのみの学習では回答の質を直接最適化できず、人間のパフォーマンスには遠く及ばないことが見込まれる [Stiennon et al., 2020]。そのため、同じ質問に対してモデルが生成した回答のペアを集めて、人間にどちらが良いかを質問した。このデータをcomparisonsと呼ぶ。質問の大部分はELI5から取得し、質問の多様性と実験のためにTriviaQAなどの他のソースの質問も少量混ぜている。約6,000件のdemonstrationsを収集したがその92%の質問がELI5からのものである。また、約21,500件のcomparisonsデータの98%の質問はELI5からである。 demonstrationsのデータ収集のためにFigure 1 (a) のGUIを、comparisonsのデータ収集のためにFigure 9のGUIを準備した。

Training

GPT-3 (760 M, 13 B, 175 B) に対して、次の4つの学習法を用いた。

Behavior cloning (BC)
人間のデモンストレーターが発行したコマンドをラベルとして (demonstrationsデータ)、教師あり学習によりfine-tuningした。
Reward modeling (RM)
BCモデルの最終層 (unembedding layer) を取り除き、質問と回答（リファレンス付き）を入力とし、スカラーの報酬値を出力するモデルとして学習させる。
Reinforcement learning (RL)
PPO [Schulman et al., 2017] を使ってBCモデルをfine-tuningする (強化学習)。強化学習時に使用する報酬として、Reward modelが出力したスコアを用いる。
Rejection sampling (best-of-n)
BCモデルとRLモデルのどちらかから固定数 (4、16、64) の回答をサンプリングし (指定がない場合はBCモデルを使用)、Reward modelによって最も高くランク付けされたものを選択する。これは、Reward modelに対して最適化の代替として用いたもので、追加の学習は必要ないが、その代わりに推論時間の計算量が多くなる。

yk-komatsu / paper