Recursively Summarizing Books with Human Feedback

e4exp commented 2 years ago

https://arxiv.org/abs/2109.10862
2021

機械学習を拡張するための大きな課題は、人間が評価することが非常に困難または時間のかかるタスクを実行するモデルをトレーニングすることです。本発表では、小説全体を抽象的に要約するタスクにおけるこの問題の進展を紹介する。我々の手法は、人間のフィードバックからの学習と、再帰的なタスク分解を組み合わせたもので、タスクのより小さな部分で訓練されたモデルを用いて、より広範なタスクに対する人間のフィードバックを支援します。人間のラベラーから大量のデモと比較を収集し、行動クローニングと報酬モデルを用いてGPT-3を微調整し、再帰的に要約を行うようにします。推論時に、このモデルはまず本の小さなセクションを要約し、次にこれらの要約を再帰的に要約して本全体の要約を作成する。人間のラベラーは、本を全部読んでいないにもかかわらず、モデルの監督と評価を素早く行うことができる。その結果，我々のモデルは書籍全体の良識ある要約を生成し，少数のケース（書籍の約5%）では人間が書いた要約の品質に匹敵することさえある．本の長さを要約するための最近のデータセットであるBookSumにおいて、最先端の結果を得ることができた。また、これらの要約を用いたゼロショット質問応答モデルは、書籍や映画の脚本に関する質問に答えるという難易度の高いNarrativeQAベンチマークにおいて、最先端の結果を得ることができました。このモデルから得られたサンプルのデータセットを公開します。

e4exp commented 2 years ago

1 はじめに

新しいタスクでMLモデルを学習するためには，どの行動が良くて，どの行動が悪いかをモデルに伝える学習信号が必要です．ビデオゲームのようないくつかのタスクでは、このトレーニング信号は自動的に計算できます。しかし、多くの有用なタスクにおいて、正確なトレーニング信号は、人間がループの中にいなければ提供できません。例えば、人間は正しい動作のデモンストレーションを提供したり（Bain and Sammut, 1995）、学習されるモデルからの2つの出力を比較したり（Christiano et al, 2017）することができ、このデータはモデルの学習に使用される。本稿では、タスクが多くの時間を要するため、あるいは評価に専門的な知識やノウハウを必要とするために、人間が監督や評価を行うことが困難なタスクに焦点を当てます。例えば、科学研究のサブフィールド全体を要約するモデルを学習するとします。人間がデモンストレーションを行ったり、モデルが生成した要約の品質を評価したりするには、膨大な時間と専門知識が必要になるでしょう。

測定しやすい代理目標（要約中の単語がトピックに関連する頻度や、要約中の個々の文章の正確さなど）を使用することで、この困難を回避することもできますが、これらの代理目標は通常、実際の目標とはあまり一致せず、最適化することで意図しない結果を招く可能性があります（Clark and Amodei, 2016; Krakovna et al, 2020; Amodei et al, 2016）。このようなタスクでMLシステムをうまくトレーニングするには、効果的なトレーニング信号を生成するためのよりスケーラブルな手段が必要になります

-この問題はスケーラブルなオーバーサイトとして知られています（Amodei et al.2016）。スケーラブルオーバーサイトに対する我々のアプローチは、タスクの分解（Singh, 1992; Dayan and Hinton, 1993）と人間のフィードバックからの学習を利用するChristianoら（2018）とLeikeら（2018）に直接インスパイアされています。高いレベルでは、これらの方法は、トップレベルのタスクを取り、その答えが人間がトップレベルのタスクを解決または評価するのに役立ついくつかの小さなサブタスクに分解します。これらのサブタスクは、さらに小さなタスクに分解され、人間がリーフタスクのトレーニング信号を提供することが可能になります。

MLモデルは、リーフタスクを解いたり、下位タスクの答えを与えられた上位タスクを解いたり、難しいタスクをサブタスクに分解したりするように学習することができます。 Dayan and Hinton (1993)とChristiano et al. (2018)は単純なアルゴリズムのタスクでしか試していませんが、Perez et al. (2020)とRajani et al. (2019)は、分解のシングルステップを使用して質問応答タスクに同様のアイデアを使用しています。

我々は、タスク分解を抽象的な書籍の要約にスケーリングすることで、この方向に一歩進んでいます。抽象的な本の要約は難しいタスクであり、データセットの収集は困難であり(Mihalcea and Ceylan, 2007; Ladhak et al., 2020; Krysci ´ nski et al., 2021)、既存の手法´は一般的に抽出的(Radev et al., 2004; Mihalcea and Tarau, 2004; Bamman and Smith, 2013; Ladhak et al., 2020)か、より短いストーリーに焦点を当てている(Kazantseva, 2006; Zhang et al., 2019b)かのいずれかである。私たちは、長文要約のための自然なタスク分解を実装しています。まず、本の小さな部分を要約するモデルを訓練し、次にこれらのモデルを使って人間が本の大きな部分を要約するのを助け、この戦略を再帰的に続けます。我々は、標準的なクロスエントロピーの行動クローニング（BC）と人間の好みからの強化学習（RL）を用いて、これらのタスクを実行するために単一のモデルを訓練する（Christiano et al.

我々の主な成果は、本全体のもっともらしい要約を生成するために再帰的に適用できるモデルである。非再帰的なアプローチでは、本の要約を生成または評価するためには、人間が本全体を読む必要があるため、このようなデータセットを素朴に収集すると、データポイントあたり50倍以上のコストがかかります（Appendix E.2参照）。

これらの要約には、本からの重要な出来事が含まれており、これらの詳細を抽象的に合成することもありますが、重要な詳細が抜け落ちていたり、広い文脈を把握できていないことが多くあります。定量的に評価すると、我々のモデルは行動クローニングのベースラインを大幅に上回り、少数の要約が人間レベルの品質に近づいています。また、本の小さな部分を要約する際に、RLとBCを比較する実験を行い、RLの方が優れたスケーリング特性を持っていることを発見しました。また、NarrativeQA question-answering dataset (Kocisk ˇ y et al., 2018) を用いて我々のサマリーを評価したところ、我々のサマリーを入力とするゼロショットモデルは、本や映画の脚本に関する質問に答えることで、最先端の結果を達成しました。また、最近のBookSumデータセット(Krysci ´ nski et al., 2021)においても、本の長さの要約について最先端の結果を得ることができました。全体として、我々の結果は、再帰的タスク分解と人間のフィードバックからの学習を組み合わせることで、困難な長文NLPタスクのスケーラブルなオーバーサイトへの実用的なアプローチとなり得ることを示している。私たちの研究が、より困難なタスクの訓練信号を人間が提供するのを助けるために、より単純なタスクで訓練されたモデルを使用する研究を促進することを願っています。

e4exp commented 2 years ago

2 Approach

2.1 Task decomposition

人間がトレーニング信号を提供するのが非常に高価なタスクを考える。 Christianoら(2018)、Irvingら(2018)、Leikeら(2018)はいずれも、何らかの方法でタスクを人間が監督できるより単純な部分に分解することを提案している。タスク分解では、人間がこの親タスクをいくつかのサブタスクに分解し、各サブタスクが親タスクよりも単純になるようにし、サブタスクへの応答を持つことで、人間が親タスクのトレーニング信号を提供することができるようになります。このタスク分解プロセスは、再帰的に適用され、葉のタスクが人間が実演または評価するのに十分なほど単純であるようなタスクのツリーを得ることができる。例えば、親タスクである「気候変動への介入に関する研究レポートを書け」は、次のようなサブタスクに分解されます。

"最も有望な気候変動介入策のリストをくれ"。といったサブタスクに分解され、さらに次のようなシンプルなタスクに分解されます。「食品廃棄物の削減はどのくらい効果があるのか」「コモンズの悲劇のシナリオを回避するために各国が協調する方法は何か」といった、よりシンプルなタスクに分解されます。このプロセスを何度も繰り返すと、MLモデルの学習に使えるデータセットが得られます。具体的には、（サブ）タスクが与えられた場合、次の2つの基本的な操作を行うモデルを学習したいと考えています。

分解：より単純なタスクのセットに対する回答を求める。 2.応答：いくつかの単純化されたタスクに対する応答が与えられた場合、元のタスクに応答する。より単純なタスクが使用されている場合、この操作をComposeと呼ぶことがあります。これは、サブレスポンスを全体のレスポンスにまとめるためです。

分解が可能であれば、どのようなタスクでも再帰的な手順で実行できます。自然なタスクが実際にどの程度分解に適しているかは、まだ未解決の問題です（Ought, 2020）。上記のフレームワークは一般的なものですが、タスクが単純な再帰的構造に適している場合、分解操作はアルゴリズムで実行でき、MLモデルは応答操作についてのみ学習する必要があるため、さらに単純化することができます。

2.2 書籍の要約の分解

我々は、テキストの要約タスクをアルゴリズムで分解する簡単な手順を用いている。テキストが十分に短ければ、直接要約し、長ければ、テキストを細かく分割し、再帰的に各テキストの要約を依頼する。この結果、要約タスクのツリーができあがります（図1参照）。ここでは、葉っぱのタスクだけが、元の書籍の一節を処理します。各タスクは、図1の鉛筆マークのノードに対応して、高さと深さを持っており、これは木の標準的な用語に対応しています。ノードの高さは，そのノードから葉への最長の下降経路の長さである．高さが0のタスクは葉っぱのタスクであり、元の本のテキストを要約することが目的である。入力が要約の連結であり、目標が別の要約を生成することであるため、高さ>0のタスクを合成タスクと呼ぶことがある。ノードの深さは、そのノードからルートへのパスの長さである。深さ0のタスクは、最終的な要約タスクであり、（深さ1のタスクから生成された要約が与えられたときに）本全体の要約を生成することが目的である。

上記のアプローチの明らかな問題点は、本のさらに奥の方の文章に対応するタスクは、要約を成功させるために必要な文脈を欠いている可能性があることです。この問題を解決するために、同じ深さの過去の要約を順番に連結して、文脈に沿って追加することにしました3。図1では、青色のタスクのための以前の要約の入力を点線で示しています。モデルのコンテキストの長さに収まるだけの数の事前の要約を含める。各要約は、前のコンテキストから自然に流れ出るようにしたい。なぜなら、後のタスクのために、より高い位置にある前のコンテキストと連結されるかもしれないからだ。この分解の便利な特性は、ツリー内のすべてのタスクが互いに非常によく似ていることです。このモデルのすべてのタスクは、同じようにフォーマットできる要約タスクです。入力テキストは、本の原文か要約の連結であり、オプションとして、要約の形で以前のコンテキストを追加します。木構造の疑似コードと詳細なパラメータは、付録A.5に記載されています。

2.3 学習

モデルの学習については，Stiennon et al.（2020）の手順に最も近い方法を採用した．まず，事前に学習した言語モデルと，学習した人間のラベラーを用意する（詳細は付録Bを参照）．ラベラーからデモを収集し、行動クローニングによってモデルを訓練する。そして、報酬学習と強化学習を何度も繰り返します。報酬関数を学習するために、ラベラーから現在の最適なポリシーからの出力に関する比較を収集し、報酬モデルを学習して、ある応答がより良いものであるという対数オッズを予測する。強化学習では、初期のポリシー（通常は監督された最良のポリシー）からのドリフトを防ぐために、KL項を追加して報酬を直接最適化します。詳細は付録Dをご覧ください。与えられたタスクのラベルを収集するには、その入力を生成する必要があります。ノードがリーフでない場合は、既存のモデル（通常は最良のモデル）を再帰的に実行して、その子のそれぞれについてサマリーを生成する。要約すると、以下のアルゴリズムを使用します。

2.2で説明した手順で、手持ちの最適なモデル4と最適なサンプリングパラメータ5を用いて、書籍をタスクに再帰的に分解（および子のサマリーを合成）する。これは人間が行うことも可能であるが、非常に高価である。
木の中から、学習したい要約タスクに対応するノードをサンプリングする6 詳細は2.3.2で述べる。
1. そのノードへの入力から学習データを得る (a) デモのために、人間のラベラーに希望の出力を書いてもらう (b) 比較のために、学習したいモデルを実行して2つの出力を得る（通常は温度1）。そして，人間のラベラーにどちらの出力が良いかを選んでもらう．
1. 学習データを使ってモデルを微調整する（a）実証実験では、ビヘイビアクローニング（BC）を使用します。標準的なクロス・エントロピー損失関数を用いて教師ありきの微調整を行います。(b) 比較のために、人間の好みを予測するために訓練された報酬モデルに対して強化学習（RL）を使用します。

このプロセスは、より新しいモデル、異なるノードサンプリング戦略、トレーニングデータの種類（デモと比較）の選択によって繰り返し行うことができます。

2.3.1 Auto-induced distributional shift

各モデルは別のモデルが生成した入力で学習されるため、自身が生成した入力は学習分布から外れ、Auto-induced distributional shift (ADS)を引き起こす(Krueger et al., 2020)。この影響は、ツリー計算の後半部分（本編の後半、特にツリーの上位）でより深刻になる。これは、トレーニングの各ラウンドの後、完全な手順を実行すると、ゼロではない高さのタスクの場合、常に事前のトレーニング分布からの入力になることを意味します。この効果の厳しさを体系的に測定していませんが、実際には、高さ0でのトレーニングを追加ラウンドすると、高さ1でのサマリーの評価が高くなることが一般的にわかりました。

2.3.2 学習カリキュラムセクション2.3.1で述べたADSのために、木の計算の後半のノードに移動する前に、木の計算の初期/下位のノードでの学習を優先することが有利である。ここでは以下の用語を定義する．

最初のサブツリー．第1サブツリーとは、最初の高さ1のタスクと、その高さ0の子タスク（通常10〜13個）を指す。図1の黄色のノードがその例である．セクション4.1では、最初のサブツリーのみでトレーニングを行うことで、モデルがツリー全体に汎化できることを示している。

最初の葉最初の葉とは、最初のサブツリーにある高さ0のタスク、つまり、最初の高さ1のタスクの子タスクのことである。これは、後続のノードへの入力は、前のノードからのもっともらしい要約があるかどうかに依存しており、人間の時間を過度に使いたくないためである。その後、最初の葉のサマリーが妥当であると判断した時点で、最初のサブツリー全体に移行します（さらに、単一の高さ1のタスクでトレーニングを行います）。この時点で、モデルはすでに木全体に汎化できるようになっているので、すべてのノードでのトレーニングに切り替えます。カリキュラムの変更はその場しのぎで行われ、以前のタスクでモデルが「十分に良い」と判断された場合に移行しました。

2.3.3 微調整の詳細

GPT-3ファミリー(Brown et al., 2020)の事前学習済み変換言語モデル(Vaswani et al., 2017)を使用し、2048トークンの文脈を取り込んでいます。入力トークンは、Radfordら（2019）で紹介されたバイトペアエンコーディングによって生成されます。その他のアーキテクチャやハイパーパラメータの選択は、Stiennonら（2020）のものに従う。詳細は付録Dに記載しています。

行動クローニングと報酬のモデル化プ

ロジェクトの最初の葉の段階では、すべての最初の葉のデータをまとめて収集する。第1サブツリーに移行する際には、高さ1のタスクのデータを独立して収集し、異なる高さでのトレーニングデータの比率を変えることができるようにする。最後に、フルツリーの段階では、まずランダムに深さを抽出し、次にその深さにあるタスクの中からランダムにタスクを選択するという戦略をとります。入力は通常、利用可能な最良のモデルと最良の推測サンプリングパラメータを用いて生成されます（付録D.2参照）。全ての場合において、過去の全てのデータ（ツリーの様々な部分からのタスクの個々のデモンストレーションと比較）を使ってトレーニングを行う。そして、タスクをランダムにシャッフルしてサンプリングします。

強化学習

学習カリキュラムの変更に合わせて、強化学習エピソードのサンプリングタスクを3種類実行しました。

最初の葉。各エピソードは、1つの最初の葉のタスクです。アルゴリズムは連続した葉っぱのタスクを連続して学習し、サンプリングされたサマリーは後続の葉っぱの前のコンテキストとして使用されます。
最初のサブツリー。各エピソードは，最初の葉のタスクまたは最初のサブツリーの高さ1の合成タスクで構成される．アルゴリズムは、リーフタスクを連続して学習し、続いてそれらのサンプリングされた出力を用いて構成タスクを学習する。
フルツリー。ランダムな深さdを選び、その深さにあるランダムなノードを選びます。アルゴリズムは、N個の連続した深さd + 1のタスクと、それらN個の出力を用いた単一の深さdの合成タスクを学習します。入力ツリーは、初期モデルからベストエフォートのサンプリング設定で事前に生成されます（実際には、古いモデルのツリーも使用することがあります）。デモや比較のデータは個々のノードのレベルであるため、RLポリシーも同じ粒度で学習します。各タスクは独立したエピソードであり、報酬はツリーの他のノードに伝播しません。

2.4 分解の利点

エンド・ツー・エンドのトレーニングと比較して、分解することで、与えられたタスクに対する人間のフィードバックを集めるのが非常に簡単になります。これに対応して、MLモデルのタスクもより簡単になります。しかし、他の利点もあります。

人間が自分でタスクの一部を実行したり、評価したりすることを可能にする。例えば、低レベルの要約にアクセスできる人間は、自分自身を素早く要約することができる。
モデルが何を考えているかを追跡し、モデルのエラーをデバッグすることが容易になります。モデルの要約に比較的孤立した事実が含まれている場合、ツリーにアクセスできる人間は、それを原文にさかのぼって追跡することができます。
我々の手順は、より長い書籍にも対応できるようになっています。学習データセットに含まれる書籍の長さに関わらず、テスト時に無制限の長さの書籍に使用することができます。

e4exp / paper_manager_abstract