Making Efficient Use ofDemonstrations to Solve Hard Exploration Problems - Githubissues

DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料

58 stars 2 forks source link

Making Efficient Use ofDemonstrations to Solve Hard Exploration Problems #58

Open kzmssk opened 5 years ago

kzmssk commented 5 years ago

RNNを使った分散型Q学習アルゴリズムR2D2にエキスパートの軌道からなるReplay Bufferを追加することで探索効率を向上させた

論文本体・著者

Making Efficient Use of Demonstrations to Solve Hard Exploration Problems
- https://deepmind.com/research/publications/Making-Efficient-Use-of-Demonstrations-to-Solve-Hard-Exploration-Problems
- Caglar Gulcehre, Tom Le Paine, Bobak Shahriari, Misha Denil, Matt Hoffman, Hubert Soyer, Richard Tanburn, Steven Kapturowski, Neil Rabinowitz, Duncan Williams, Gabriel Barth-Maron, Ziyu Wang, Nando de Freitas, and Worlds Team.
- DeepMind, London

解きたい問題

報酬が疎であり、かつ初期状態のバリエーションが多いようなPOMDP環境でもタスク達成が可能な強化学習エージェントを作りたい

新規性

SoTAだった分散型Q学習アルゴリズムR2D2にエキスパートのエピソードを集めたReplay Buffer（demo replay）を追加して探索効率を上げたこと
- 提案手法の名前はRecurrent Replay DistributedDQN fromDemonstrations(R2D3）
Hard-Eight Task Suiteと呼ばれるPOMDPかつ強化学習エージェントにとって探索が難しい環境を設計した

実装


論文 Fig. 1 より　提案学習アルゴリズムの概要図

R2D2に人間が行動決定をして収集したエピソードを集めたdemo replayを追加
- ε-greedy方策で経験データを収集するactorを並列して複数使用
- actorが生成したエピソードを優先度付き経験再生（Prioritized Experience Replay)するためのReplay Buffer
- 人間のエピソードを集めたReplay Buffer
- 方策の更新を行うLearnerはdemo replay, agent replayからそれぞれ確率ρ, 1-ρでシーケンスをサンプリングし、これをバッチとして学習
- 方策のパラメータ更新が行われるたびに2つのBufferの優先度がTD誤差を使って更新される


論文 Fig. 3 より　提案タスクセットHard-Eightの8つのタスクの1つ"Baseball"の例

R2D3の有効性を示すために探索が難しいPOMDP環境における8つのタスクを設計
- 一人称視点の3D環境（環境の状態全てを一度に観測できない）
- 1つを除いて全てのタスクではエピソード終了時にしか正の報酬が与えられない
- 壁の色やオブジェクトの配置などを変えて初期状態が毎回変わる
- １つのタスクは図のように複数のサブタスクから構成されており、最後にゴール（リンゴの取得）する必要がある

実験・議論


論文 Fig. 5 より　提案タスクセットHard-Eightを使ったR2D3と既存手法の比較実験結果

R2D3をHard-Eightの8つのタスクで既存手法と比較
- Behavior Cloning (BC): 人間が操作して得られたエピソードを教師データとしてcross-entropy lossで学習した方策
- DQfD: Q-NetworkをRNNではなくFeed Forward Neural Networkにしたもの
- R2D2: 提案手法からdemo replayを抜いたもの
demo replayでは人間のプレイデータとして100エピソードを使った
既存手法はどれも上手くいかなった
提案手法は6つのタスクで人間と同程度または人間以上になった
- "Remember Sensor"と"Throw Across"が学習できなかったのは経験再生の際にRNNの隠れ状態を前向き計算によって取得するburn-inのステップ長が短かったのではないか


論文 Fig. 6 より　全てのタスクにおける提案手法のdemo replayの混合確率ρの比較結果

8つ全てのタスクでdemo replayの混合確率ρを変えて学習を行い、学習後のタスク達成率を比較した
予想に反して小さいエキスパートの確率が良い結果になった

読んだ中での不明点などの感想

提案手法を提案実験方法で比較しているので、他の強化学習の問題でも提案手法の優位性が示されるかは疑問が残る
エキスパートの混合確率をどこまで小さくするとR2D2（混合確率0）の結果と並ぶのか気になった

関連論文

Distributed Prioritized Experience Replay: RNNではないQ-Networkの分散型学習の提案。R2D2の元になっている手法
Recurrent Experience Replay in Distributed Reinforcement Learning: R2D2の提案論文。要約記事はここ

mrstash101 commented 4 years ago

Amazed