Open yk-komatsu opened 1 year ago
モデルは支持するエビデンスが文内に埋め込まれた回答を生成し、エビデンスによりサポートされた主張を生成するタスクを言語モデリング(文の生成)として扱う。 回答とエビデンスは以下のテンプレートを使用し、黒がテンプレートトークンで、紫がプレースホルダーである。
(例)
%<A Great Dane dog.>%(Scooby-Doo)%[This Saturday-morning cartoon series featured teenagers Fred Jones, Daphne Blake, Velma Dinkley, and Shaggy Rogers, and their talking Great Dane named Scooby-Doo.]%
left-to-right言語モデルを使用しているため、この構文は以下の自己回帰型の因数分解になる。 ここで、$c$はGoogle Searchの検索結果またはユーザーから提供されるドキュメントからなるコンテクストの集合である。 この構文の利点は以下の通り。
言語モデルはGopher-family LMを用い、これらをfine-tuningする。また、最もパラメーター数の多い280 Bパラメーター Gopherモデルに焦点を当て、1.4 Bと7 Bパラメーターのモデルをablation studyで用いる。
質問に関連する情報源を取得するためにGoogle Searchを用いる。Google Searchに入力された質問をそのまま与え、検索結果として得られたドキュメントから可能な限り多くのコンテクストを言語モデルに示す。 推論時はGoogle SearchからTop K件のドキュメントを取得し、N (> K) 件の回答を生成する。そして最後にReward modelのスコアによりリランキングする。
Step 1: Collect data from our best current models, and have it rated by humans. モデルの出力を比較対象として人間のラベラーに提供する。ラベラーは個々の回答の質の評価と回答間の好みを判断する。 これらはそれぞれ教師ありfine-tuningとreward modelの学習に用いる。 最初のイテレーションでは、ベースのGopherモデルのfew-shot promptingから始める。
Step 2: Train a supervised finetuning (SFT) model: ラベラーによってポジティブと評価されたデータで事前学習済みGopherモデルをfine-tuningする。Supervised fine-tuningステージの目的は、構文を用いて引用を生成するようにモデルに教えることと、Self-Supported Question-Answeringのベースラインのレベルを提供することである。
Step 3: Train a reward model (RM): 1つの質問に対する2つの回答間の比較結果であるcomparisonsのデータセットを用いてreward modelを学習する。
Step 4: Optimize a reinforcement learning (RL) policy against a reward model: RL fine-tuningステージでは、モデルの引用の振る舞いを人間の好みに合わせてチューニングする。
Step 5: Repeat from Step 1.
このループの各イテレーションでは継続的に学習データにデータを追加する。この学習スキーマのループは、short-answer extractive QAデータ (Natural Questions, SQuAD, TriviaQA) に対して4回実行され、システムの能力の拡張のためにnon-extractive longer-form question answeringデータ (ELI5) で2回実行された。
教師あり学習では入出力のペアからなる事例が必要で、出力は"inline evidence"構文を使用するものである。十分に高品質なこのようなデータセットは存在しないため、高品質な約5,000件の小さい学習データセットを作成した。このデータセットはELI5とNatural Questionsデータセットから取得した質問とGoogle Searchから得られた記事から成る。この学習データセットでは質問のみが標準的なデータセットから使用され、回答はGopher (280 B) から生成された。 人間のデモデータの収集が標準的であるが、そのような教師データを作成するのは高コストで、関連研究 (WebGPTなど) で行われている。その代わりに本研究ではGopherを用いたfew-shotによりインラインのエビデンス付き回答の候補を数万件生成した。そして、後述する条件に従った高品質なサンプルであるかどうかを人間(クラウドソーシング)が判断し、高品質なサンプルだけを残す。
few-shot promptingの例
Abstract
Recent large language models often answer factual questions correctly. But users can't trust any given claim a model makes without fact-checking, because language models can hallucinate convincing nonsense. In this work we use reinforcement learning from human preferences (RLHP) to train "open-book" QA models that generate answers whilst also citing specific evidence for their claims, which aids in the appraisal of correctness. Supporting evidence is drawn from multiple documents found via a search engine, or from a single user-provided document. Our 280 billion parameter model, GopherCite, is able to produce answers with high quality supporting evidence and abstain from answering when unsure. We measure the performance of GopherCite by conducting human evaluation of answers to questions in a subset of the NaturalQuestions and ELI5 datasets. The model's response is found to be high-quality 80\% of the time on this Natural Questions subset, and 67\% of the time on the ELI5 subset. Abstaining from the third of questions for which it is most unsure improves performance to 90\% and 80\% respectively, approaching human baselines. However, analysis on the adversarial TruthfulQA dataset shows why citation is only one part of an overall strategy for safety and trustworthiness: not all claims supported by evidence are true.
論文リンク
https://arxiv.org/abs/2203.11147
著者/所属機関
Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, Nat McAleese
投稿日付 (yyyy/MM/dd)
2022/03/21
実装コード
どんなもの?
先行研究と比べてどこがすごい?
技術や手法のキモはどこ?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?