jojonki / arXivNotes

IssuesにNLP(自然言語処理)に関連するの論文を読んだまとめを書いています.雑です.🚧 マークは編集中の論文です(事実上放置のものも多いです).🍡 マークは概要のみ書いてます(早く見れる的な意味で団子).
https://github.com/jojonki/arXivNotes/issues
194 stars 8 forks source link

2019: A Survey of Reinforcement Learning Informed by Natural Language #267

Open jojonki opened 5 years ago

jojonki commented 5 years ago

A Survey of Reinforcement Learning Informed by Natural Language Jelena Luketina, Nantas Nardelli, Gregory Farquhar, Jakob Foerster, Jacob Andreas, Edward Grefenstette, Shimon Whiteson, Tim Rocktäschel Published at IJCAI'19 https://arxiv.org/abs/1906.03926

概要

NLPでRLを使った研究のサーベイ論文. // 最近(2019含む)の研究の紹介を行っているので,気になるところを読むといい.いろいろな研究を知りたければ第3章(現在の自然言語におけるRLの使われ方),現状を俯瞰したコメントや課題に対する今後の示唆に関しては第4章移行が参考になる(自然言語におけるRLのトレンド)

イントロ

スキップ

背景

強化学習と模倣学習

スキップ

自然言語からの転移

スキップ

現在の自然言語におけるRLの使われ方

下記の2視点で見る(排他に存在しているわけではない)

Screen Shot 2019-07-07 at 3 17 57 PM

データ獲得の手段として多くの研究がシンプルな文法や語彙を使ったテンプレートスタイルで文を人工的に合成する手段が多い(例:"what color is in ").またより複雑なテンプレートを使った手段もある(Chevalier-Boisvertet al., 2019)

Language-conditional RL

  • Instruction Following
    • タスク定義
      • 言語によって記述されたインストラクションで定義されたタスク
      • テスト時に未知のインストラクションに対しても汎化できるようにする
    • (典型的なもの)タスクのプロキシとして,ゴール状態や好まれるポリシーの記述が与えられる研究(MacMahon 2006; Kollar 2010)
    • 簡単なオブジェクト操作タスク(Wang 2016; Bahdanau 2019)
    • 2Dや3D上で,特定エンティティにたどり着くためのナビゲーションタスク
      • ゴールは”Go to the red hat"のように述部で与えられる(Hermann 2017; Chaplot 2018)
      • 他エンティティとの関係性が与えられる,"Reach the cell above the western-most rock".(Janner 2018; Chen 2018)
      • 以前の研究として,ワールドエンティティとインストラクション構造の関連を利用するため,オブジェクトレベル表現とリレーションモデルを利用し,言語インストラクションを適当なシンボル言語に落とした.(Kuhlmann 2004; Chen and Mooney 2011; Arti and Zettlemoyer 2013; Andres and Klein 2015)
      • DNNを使ってポリシーで直接条件づけするために,インストラクションと観測の両方を埋め込んでしまう研究が一般的になってきた.(Meiet al 2016; Hermannet 2017; Chaplotet 2018; Janneret 2018; Misraet al 2017; Chenet 2018)
      • 人が作った自然言語によるインストラクションを使ったもの.(MacMahonet 2006; Bisket 2016; Misraet 2017; Janneret 2018; Chenet 2018; Andersonet 2018; Goyalet 2019; Wanget 2019)
        • RLのデータ効率性の制限のため,これらのやり方はRL手法においては標準ではない.(Hermann 2017)
    • 上記の研究は,階層的RL(Barto and Mahadevan 2003)と強く紐付いている
      • サブタスクに関連するインストラクションの個別の文や節を利用したもの.(Branavan 2010)
      • インストラクションの語彙が十分にシンプルな場合,明示的な最適ポリシーは,各タスクのサブポリシーの記述と関連して構築される.(Andreas 2017)
      • より柔軟なアプローチとして,未知インストラクションにある程度一般化できる,現在の実行されているインストラクションに条件づけされた1つのポリシーを利用する方法(Mei 2016; Oh 2017)
        • Oh 2017では未知インストラクションへの一般化として,アナロジーを捉えるためにインストラクション埋め込みを利用している
          • 例)[Visit,X]:[Visit,Y]::[Pickup, X]:[Pick up, Y] // ようわからん
  • Rewards from Instructions
    • 学習時に環境報酬が利用可能で,テスト時には利用できない.(Tellex 2011)
      • エキスパートの軌跡から推測するなど
    • 指示されたタスクが終了したかどうかによって自動評価する手法が求められている
      • 逆強化学習(IRL)の設定が使われる(Ziebart 2008, Ho and Ermon 2016)
      • 一般的な報酬学習モジュールは,インストラクションと(サブ)ゴールあるいはトラジェクトリーセグメントをグラウンディングするために利用し,ポリシー学習あるいやプランナーのために報酬を生成するために利用される
    • 標準的なIRLであるMaxEntropy IRLライクな手法(Ziebart 2008;Fu 2019)
      • 最尤推定IRLもある.報酬,振る舞い,言語の生成モデルをジョイント学習もしている(Babes 2011; MacGlashan 2015)
      • 報酬関数が敵対学習を通して学習されるものもある.インストラクションが与えられ,報酬関数モジュールがゴール状態とそうでない状態の識別器を学習するのに対して,エージェントは識別器がゴール状態と区別できないような状態を訪れようとする(Ho and Ermon 2016)
    • 環境報酬が利用可能であるがスパースである場合,インストラクションは任意の報酬の学習に利用されたりする
      • エキスパートの言語アノテーションを元に,エージェントがオフラインで予測したトラジェクトリーが対応しているかを学習することによって報酬関数を鍛える(Goyal 2019; Wang 2019)
      • インストラクションから抽出した特徴量によって条件付することで報酬関数を学習する(Agarwal 2019)
  • Language in the Observation and Action Space
    • 自然言語を使った環境でもっとも多い研究はdriving interaction.
      • Go to the blue ball south west of the green box
    • テキストゲームはRL環境として簡単にフレーム化でき,構造学習,知識獲得,転移学習タスクとして良いテストベッドになっている(Infocom 1980; Branavan 2012)
    • テキストゲームのアクション空間が動詞ーオブジェクトペアという制約が加われば,Q関数を動詞とオブジェクトに分割でき学習を容易にする(DePristo and Zubek 2001; Narasimhan 2015; Yuan 2018)
      • ただこれらの研究は任意長のアクション文に対するスケール性に踏み込んでいない.そこでTextWorldというフレームワークが提案され(Cote 2018),テキストゲームのインスタンスが生成される.そこでは既存の単語埋め込みベースの手法は簡単なタスクでのみうまくいくと指摘された(Kostka 2017; Fulda 2017)
    • 対話システムとQAでの設定もある
      • それぞれNLPで長く研究されているテーマであるが,広範囲にレビューもされている(Chen 2017b; Bouziane 2015)
      • 最近ではEmbodied QAの設定が提案されており,与えられた質問に対して探索とナビゲーションをして答える必要がある.例えば「キッチンにはマグが何個ある?」.リッチな3D環境を採用することで,EQAは段階的プランニングと部分観測下での推論が必要になっている.ただし答えは短く数を絞っているため,限定されたインストラクション下でのみ動く(Das 2018a; Gordon 2018)

Language-assisted RL

この設定では自然言語コーパスや手法をRLタスクに転移させる手法について述べる.多くの研究ではテキスト情報はタスク依存になっているが,タスク独立の情報を使った研究も少しある

  • 言語パーサーの情報を利用(Branavan 2012)
  • 事前学習ずみ文埋め込みの利用(Goyal 2019)
  • Language for Communicating Domain Knowledge
    • タスクに関連する情報が含まれているような設定.ポリシーに対するアドバイスのようなもの,環境に関してフォローすべきこと,情報などが含まれる.非構造化テキストなどが含まれるため,情報抽出や情報と観測のグラウンディングが必要だったりする
    • 生成言語モデルを用いてタスクに関連するドキュメントを使って,文と構文を再構成する述語ー引数構造を作り概要を学習する.この概要は模倣学習を改善する特徴空間を獲得するために利用される(Eisenstein 2009)
    • 戦略ゲームであるCivilizationを利用し,そのゲームの自然言語のマニュアルにアクセス,最初の何ステップかQ学習で行う(モンテカルロ木サーチプランニング,Branavan 2012)
    • 2D環境において,環境の中のエンティティが言語によって記述されているような設定を使ったもの.例えば,spiderエンティティが"ランダムに動く敵"のように記述されている(Narasimhan 2018)
  • Language for Structuring Policies
    • 環境の状態やダイナミクスに関する情報のインタラクションとしても自然言語は利用される.
    • 自然言語のプロンプトをパースしたツリーをベースに,ジョイント学習したコレクションを動的に構築するニューラルモデル(Andreas 2016)
    • VQAタスクのアイデアをRLタスクに転用したものもある.(Dass 2018b; Bahdanau 2019)
    • 2Dナビゲーションタスク(Janner 2018)において,ポリシーparametrizationとして自然言語の記述を利用したもの(Andreas 2018)
    • 自然言語の階層構造は階層RLのポリシー表現として良い候補となる
      • 階層エージェントのためのポリシー仕様として言語を利用した(Andreas 2017; Shu 2018)
      • リアルタイム戦略ゲーム環境におけるマクロアクション表現として生成された自然言語を利用(Hu 2019)

自然言語におけるRLのトレンド

これまでの紹介ではRLにおいてどのように自然言語が探索されているかの研究を紹介した.そこでトレンドを紹介する.

  1. language-assisted RLよりもlanguage-conditional RLの方が多い
  2. タスク独立テキストよりもタスク固有テキストから学習する研究が多い
  3. タスク独立テキストを利用したものに関して,非構造や記述テキストからどのように情報を転移させるかについての研究は指で数えるぐらいしかない
  4. 内部計画を構築し,言語の構造を利用して構成表現を探索する研究も少ない
  5. 自然言語よりも人工テキストの方がまだスタンダード

我々は自然言語を扱う研究をより多くすべきだと主張したい.非構造テキストや記述データは難しいが,実環境でのインパクトは多い.現在の人工的な環境はシンプルすぎて実用的ではない.また標準的な環境や評価環境も準備する必要があるだろう.

そのためにやる価値があるであろうことを下記にまとめる

  • 最近進歩のある事前学習型の言語モデル
  • 表現学習の進歩
  • リッチでチャレンジングなRL環境の構築を容易にする

深層学習を使った方法はlanguage-assisted RLの文脈で行われており,(Eisenstein 2009; Branavan 2012)は再度読む価値があるだろう.

加えて(Bahdanau 2019; Cote 2018; Chevalier-Boisvert 2019)などのソフトウェア資源の再利用は,環境構築や標準的なテストとして推奨したい

Learning from Text Corpora in the Wild

Webには大量の情報があり,Wikipediaやstackexchangeの情報などある.また多くのゲームにはウォークスルーや戦略ガイドが存在している.

タスク固有のコーパスの転移学習も有効であり,少数のインストラクションデータのによル,グラウンディングを可能にしたzero-shot能力を有する研究もある(Radford 2019)

  • Task-independent corpora
    • 言語の理解には我々が無意識でやっているような常識を必要としており(例:木からりんごを取る>りんごから木を取る),より多くの事前学習型の情報を利用するような研究が増えるのではないだろうか.
    • 言語情報の知識なしに,インストラクションフォロー型の研究では,未知の同意語やパラフレーズに対応することができない.一方で事前学習型の単語や文は単体では問題解決が行えないが,未知の単語やフレーズの一般化に大きな貢献をしてくれる
    • またアナロジーに関する知識転移のための表現学習は,未知インストラクションに対して重要な役割を果たすと信じている
    • 例えば自然言語のインストラクションで事前学習ずみの言語モデルをもつモデルを利用すれば,「to open the door, I need to...」と与えられて「turn the handle」のような文を推論することができるかもしれない
  • Task-dependent corpora
    • タスク固有のコーパスからの転移に関する研究は,その応用アプリの広さから有望である
    • (Narasimhan 2018)のようなタスク固有記述のデータを利用すれば,事前学習モデルからの表現学習が可能であり,IRや機械読解のタスクでfine-tuningしたRLエージェントを使えるかもしれない.ゲームマニュアルのような物でも良いだろう.

Towards Diverse Environments with Real-World Semantics

RLにおいて言語を利用することでエージェントの新しいゴール,報酬,環境ダイナミクスに素早く,正確に適用させることができる.実環境と比べて,現在主流の小さく狭い設定においては,RLエージェントの汎化に多くは望めない.

1つの展望として3Dの家環境のシミュレーターを使った(Gordon 2018; Das 2018a; Yan 2018)の研究では,実世界のセマンティクスが環境に多く組み込まれているが,それでも言語インストラクションの幅は非常に絞っている.もう1つMinecraftのようなオープンワールドのゲームの設定を使えば,無限大の組み立て作業があり,展望が期待できる(Johnson 2016).多くの人によるアノテーションと環境のインタラクションを利用して,グラウンディングをスケールさせねばなるまい.

結論

現在主流のRLの研究は環境に多くに制約を与えているため,他環境に持ってきたときのパフォーマンスが低い.自然言語のコーパスの知識をRLに持ってくることで,RLのより実世界的なアプローチが可能になってくるだろう.また言語をRLに組み込んだ研究は多く出てきているが,RLタスクがシンプルすぎたり言語が人工的で限られていたりとまだまだである.

RLの言語利用の可能性を広げるため,我々は非構造テキストや記述により注力していきたい.事前学習の言語モデルの利用は有望だろう.これらの研究では,より実世界の多様性を反映したチャレンジングな環境が必要となってくるだろう.

コメント

  • ちょうどRLを本格的に勉強したいと思っていたので良い教材となった.ただRLの基礎知識はあるものの応用研究をほとんど読んでいなかったので関連研究のところは,より具体的なテーマ設定を持ってから見返すのが良さそう
  • ただ第4章以降の現状のRLx言語の振り返りとそれに対する方向性の示唆に関しては,一読の価値が十分にあった