A Survey of Reinforcement Learning Informed by Natural Language
Jelena Luketina, Nantas Nardelli, Gregory Farquhar, Jakob Foerster, Jacob Andreas, Edward Grefenstette, Shimon Whiteson, Tim Rocktäschel
Published at IJCAI'19
https://arxiv.org/abs/1906.03926
ゴールは”Go to the red hat"のように述部で与えられる(Hermann 2017; Chaplot 2018)
他エンティティとの関係性が与えられる,"Reach the cell above the western-most rock".(Janner 2018; Chen 2018)
以前の研究として,ワールドエンティティとインストラクション構造の関連を利用するため,オブジェクトレベル表現とリレーションモデルを利用し,言語インストラクションを適当なシンボル言語に落とした.(Kuhlmann 2004; Chen and Mooney 2011; Arti and Zettlemoyer 2013; Andres and Klein 2015)
DNNを使ってポリシーで直接条件づけするために,インストラクションと観測の両方を埋め込んでしまう研究が一般的になってきた.(Meiet al 2016; Hermannet 2017; Chaplotet 2018; Janneret 2018; Misraet al 2017; Chenet 2018)
最近ではEmbodied QAの設定が提案されており,与えられた質問に対して探索とナビゲーションをして答える必要がある.例えば「キッチンにはマグが何個ある?」.リッチな3D環境を採用することで,EQAは段階的プランニングと部分観測下での推論が必要になっている.ただし答えは短く数を絞っているため,限定されたインストラクション下でのみ動く(Das 2018a; Gordon 2018)
1つの展望として3Dの家環境のシミュレーターを使った(Gordon 2018; Das 2018a; Yan 2018)の研究では,実世界のセマンティクスが環境に多く組み込まれているが,それでも言語インストラクションの幅は非常に絞っている.もう1つMinecraftのようなオープンワールドのゲームの設定を使えば,無限大の組み立て作業があり,展望が期待できる(Johnson 2016).多くの人によるアノテーションと環境のインタラクションを利用して,グラウンディングをスケールさせねばなるまい.
A Survey of Reinforcement Learning Informed by Natural Language Jelena Luketina, Nantas Nardelli, Gregory Farquhar, Jakob Foerster, Jacob Andreas, Edward Grefenstette, Shimon Whiteson, Tim Rocktäschel Published at IJCAI'19 https://arxiv.org/abs/1906.03926
概要
NLPでRLを使った研究のサーベイ論文. // 最近(2019含む)の研究の紹介を行っているので,気になるところを読むといい.いろいろな研究を知りたければ第3章(現在の自然言語におけるRLの使われ方),現状を俯瞰したコメントや課題に対する今後の示唆に関しては第4章移行が参考になる(自然言語におけるRLのトレンド)
イントロ
スキップ
背景
強化学習と模倣学習
スキップ
自然言語からの転移
スキップ
現在の自然言語におけるRLの使われ方
下記の2視点で見る(排他に存在しているわけではない)
データ獲得の手段として多くの研究がシンプルな文法や語彙を使ったテンプレートスタイルで文を人工的に合成する手段が多い(例:"what color is
Language-conditional RL
Language-assisted RL
この設定では自然言語コーパスや手法をRLタスクに転移させる手法について述べる.多くの研究ではテキスト情報はタスク依存になっているが,タスク独立の情報を使った研究も少しある
自然言語におけるRLのトレンド
これまでの紹介ではRLにおいてどのように自然言語が探索されているかの研究を紹介した.そこでトレンドを紹介する.
我々は自然言語を扱う研究をより多くすべきだと主張したい.非構造テキストや記述データは難しいが,実環境でのインパクトは多い.現在の人工的な環境はシンプルすぎて実用的ではない.また標準的な環境や評価環境も準備する必要があるだろう.
そのためにやる価値があるであろうことを下記にまとめる
深層学習を使った方法はlanguage-assisted RLの文脈で行われており,(Eisenstein 2009; Branavan 2012)は再度読む価値があるだろう.
加えて(Bahdanau 2019; Cote 2018; Chevalier-Boisvert 2019)などのソフトウェア資源の再利用は,環境構築や標準的なテストとして推奨したい
Learning from Text Corpora in the Wild
Webには大量の情報があり,Wikipediaやstackexchangeの情報などある.また多くのゲームにはウォークスルーや戦略ガイドが存在している.
タスク固有のコーパスの転移学習も有効であり,少数のインストラクションデータのによル,グラウンディングを可能にしたzero-shot能力を有する研究もある(Radford 2019)
Towards Diverse Environments with Real-World Semantics
RLにおいて言語を利用することでエージェントの新しいゴール,報酬,環境ダイナミクスに素早く,正確に適用させることができる.実環境と比べて,現在主流の小さく狭い設定においては,RLエージェントの汎化に多くは望めない.
1つの展望として3Dの家環境のシミュレーターを使った(Gordon 2018; Das 2018a; Yan 2018)の研究では,実世界のセマンティクスが環境に多く組み込まれているが,それでも言語インストラクションの幅は非常に絞っている.もう1つMinecraftのようなオープンワールドのゲームの設定を使えば,無限大の組み立て作業があり,展望が期待できる(Johnson 2016).多くの人によるアノテーションと環境のインタラクションを利用して,グラウンディングをスケールさせねばなるまい.
結論
現在主流のRLの研究は環境に多くに制約を与えているため,他環境に持ってきたときのパフォーマンスが低い.自然言語のコーパスの知識をRLに持ってくることで,RLのより実世界的なアプローチが可能になってくるだろう.また言語をRLに組み込んだ研究は多く出てきているが,RLタスクがシンプルすぎたり言語が人工的で限られていたりとまだまだである.
RLの言語利用の可能性を広げるため,我々は非構造テキストや記述により注力していきたい.事前学習の言語モデルの利用は有望だろう.これらの研究では,より実世界の多様性を反映したチャレンジングな環境が必要となってくるだろう.
コメント