Methods

Inline evidence syntax

モデルは支持するエビデンスが文内に埋め込まれた回答を生成し、エビデンスによりサポートされた主張を生成するタスクを言語モデリング（文の生成）として扱う。回答とエビデンスは以下のテンプレートを使用し、黒がテンプレートトークンで、紫がプレースホルダーである。

(例)

%<A Great Dane dog.>%(Scooby-Doo)%[This Saturday-morning cartoon series featured teenagers Fred Jones, Daphne Blake, Velma Dinkley, and Shaggy Rogers, and their talking Great Dane named Scooby-Doo.]%

left-to-right言語モデルを使用しているため、この構文は以下の自己回帰型の因数分解になる。ここで、$c$はGoogle Searchの検索結果またはユーザーから提供されるドキュメントからなるコンテクストの集合である。この構文の利点は以下の通り。

モデルから出力された表現を後からパースでき、主張とエビデンスを分割するのが容易になる。また、モデルによる回答生成時に出力がこの構文を満たすものに制約できる。
自己回帰型で最初に回答が生成されるため、エビデンスを考慮することなく回答に尤度を割り当てられる。 (回答のスコアリングを分離できる）
主張が与えられた上で、その後に継続するエビデンスを生成するという、条件付きエビデンス生成として扱うことができる。

Pretrained language models

言語モデルはGopher-family LMを用い、これらをfine-tuningする。また、最もパラメーター数の多い280 Bパラメーター Gopherモデルに焦点を当て、1.4 Bと7 Bパラメーターのモデルをablation studyで用いる。

Conditioning and retrieval

質問に関連する情報源を取得するためにGoogle Searchを用いる。Google Searchに入力された質問をそのまま与え、検索結果として得られたドキュメントから可能な限り多くのコンテクストを言語モデルに示す。推論時はGoogle SearchからTop K件のドキュメントを取得し、N (> K) 件の回答を生成する。そして最後にReward modelのスコアによりリランキングする。

High-level training pipeline

Step 1: Collect data from our best current models, and have it rated by humans. モデルの出力を比較対象として人間のラベラーに提供する。ラベラーは個々の回答の質の評価と回答間の好みを判断する。これらはそれぞれ教師ありfine-tuningとreward modelの学習に用いる。最初のイテレーションでは、ベースのGopherモデルのfew-shot promptingから始める。
Step 2: Train a supervised finetuning (SFT) model: ラベラーによってポジティブと評価されたデータで事前学習済みGopherモデルをfine-tuningする。Supervised fine-tuningステージの目的は、構文を用いて引用を生成するようにモデルに教えることと、Self-Supported Question-Answeringのベースラインのレベルを提供することである。
Step 3: Train a reward model (RM): 1つの質問に対する2つの回答間の比較結果であるcomparisonsのデータセットを用いてreward modelを学習する。
Step 4: Optimize a reinforcement learning (RL) policy against a reward model: RL fine-tuningステージでは、モデルの引用の振る舞いを人間の好みに合わせてチューニングする。
Step 5: Repeat from Step 1.

このループの各イテレーションでは継続的に学習データにデータを追加する。この学習スキーマのループは、short-answer extractive QAデータ (Natural Questions, SQuAD, TriviaQA) に対して4回実行され、システムの能力の拡張のためにnon-extractive longer-form question answeringデータ (ELI5) で2回実行された。

Bootstrapping via prompting

教師あり学習では入出力のペアからなる事例が必要で、出力は"inline evidence"構文を使用するものである。十分に高品質なこのようなデータセットは存在しないため、高品質な約5,000件の小さい学習データセットを作成した。このデータセットはELI5とNatural Questionsデータセットから取得した質問とGoogle Searchから得られた記事から成る。この学習データセットでは質問のみが標準的なデータセットから使用され、回答はGopher (280 B) から生成された。人間のデモデータの収集が標準的であるが、そのような教師データを作成するのは高コストで、関連研究 (WebGPTなど) で行われている。その代わりに本研究ではGopherを用いたfew-shotによりインラインのエビデンス付き回答の候補を数万件生成した。そして、後述する条件に従った高品質なサンプルであるかどうかを人間（クラウドソーシング）が判断し、高品質なサンプルだけを残す。

few-shot promptingの例

Collection of human ratings

Supervised finetuning

Reinforcement learning from human preferences

Declining to answer

Similarities and differences compared to recent work.

From the user's perspective

LaMDA
- 主張を支持するエビデンスをURLとして示すのみで、そこからの事実確認はユーザーがしなければならない。
WebGPT
- 主張と引用をリンクさせ、引用付きの複数の主張を1つの回答にする。
GopherCite
- 主張を支持する正確で簡潔な引用を提供する。 (vs LaMDA)
- 個々の主張が支持される割合について特に研究している。 (vs WebGPT)

Training data

LaMDAとWebGPTは人間のデモンストレーションから学習している。一方、GopherCiteはfew-shot promptから生成されたデータから学習している。
LaMDAとWebGPTと同様に、GopherCiteでも多くのサンプルを生成し、モデルの最終的な回答を選ぶためにリランキングネットワークを利用している。
- LaMDAの場合は完全に教師あり学習である。
- GopherCiteはリランキングのためにreward modelを使用し、これは回答のペアに対してどちらが良いかを予測する。
WebGPTと同様に、回答の質を向上させるために、人間の好みに基づく強化学習を適用する。
Lazaridou et al. (2022) はfine-tuningを行わず、promptのみを使用する。

Learning to query

LaMDAとWebGPTは検索エンジンに問い合せるエージェントを学習し、与えられた入力に対して複数回問い合わせられる。
GopherCiteは単にユーザーの質問を検索エンジンに送り、その結果を条件に回答を生成するだけである。

Information retrieval

LaMDAはクエリによって返される非常に短い断片 (1-2センテンスのGoogleスニペット、またはナレッジグラフのリレーション）をモデルの条件付け（promptのコンテキスト?) として利用する。
WebGPTは複数の引用からなる簡潔でよく整理されたコンテクストで最終的な回答を生成する。
GopherCiteはより長いドキュメントをコンテクストとする。最大4,096 tokensのコンテクストで学習し、推論時も少なくともこの長さのコンテクストを利用する。
(Lazaridou et al., 2022)は、単純なTFIDFベースラインによって検索結果から抽出された短いスニペットを言語モデルの条件 (コンテクスト) とする。

Abstention

GopherCiteは常に直接質問に回答するにように学習されている。しかし、Reward modelの下で許容されるスコアのしきい値を設定することによって、GopherCiteが回答を断る頻度を設定できる。
WebGPTは質問をかわす回答のデモンストレーションを含んでおり、モデルの裁量で段階的に回答を控えることができる。

yk-komatsu / paper

[2022] Teaching language models to support answers with verified quotes #3

Abstract

論文リンク

著者/所属機関

投稿日付 (yyyy/MM/dd)

実装コード

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？