Open yk-komatsu opened 1 year ago
NLPにおける大きな課題として、オープンドメインの質問に対してパラグラフレベルの長さの (複雑な) 回答を生成する長文形式の質問応答 (long-form question answering: LFQA) がある。LFQAシステムは人々が学ぶ主要な方法となり得る可能性があるが、現在は人間のパフォーマンスとの間に差がある。既存研究では、情報検索と回答生成の2つのコアの構成要素に焦点を当てる傾向がある。
本研究ではテキストベースのウェブブラウジング環境を設計した。
言語モデルは質問、現在のカーソル位置におけるウェブページのテキストなどの環境における現在の状態のサマリーを生成する。 (Figure 1 (b))
これを受けて、モデルはTable 1で与えられているコマンド (Bingでの検索を実行、リンクをクリック、スクロールなどのアクションを実行する) の一つを発行する。
モデルがブラウジングしている間、モデルが実行できるアクションの一つは現在のページからの抜粋を引用することであり、これが実行されると、ページのタイトル、ドメイン名、抜粋箇所がリファレンスとして記録される。ブラウジングは終了のコマンドが発行されるか、アクションの最大実行回数に到達するか、リファレンスの総数が最大値に達するまで続けられる。
質問に回答するためにブラウザーを使う人間のデータを収集し、これをdemonstrationsと呼ぶ。demonstrationsのみの学習では回答の質を直接最適化できず、人間のパフォーマンスには遠く及ばないことが見込まれる [Stiennon et al., 2020]。そのため、同じ質問に対してモデルが生成した回答のペアを集めて、人間にどちらが良いかを質問した。このデータをcomparisonsと呼ぶ。 質問の大部分はELI5から取得し、質問の多様性と実験のためにTriviaQAなどの他のソースの質問も少量混ぜている。約6,000件のdemonstrationsを収集したがその92%の質問がELI5からのものである。また、約21,500件のcomparisonsデータの98%の質問はELI5からである。 demonstrationsのデータ収集のためにFigure 1 (a) のGUIを、comparisonsのデータ収集のためにFigure 9のGUIを準備した。
GPT-3 (760 M, 13 B, 175 B) に対して、次の4つの学習法を用いた。
Abstract
We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.
論文リンク
https://arxiv.org/abs/2112.09332
著者/所属機関
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman
投稿日付 (yyyy/MM/dd)
2021/12/17
実装コード
どんなもの?
先行研究と比べてどこがすごい?
技術や手法のキモはどこ?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?