DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料
58 stars 2 forks source link

Making Efficient Use ofDemonstrations to Solve Hard Exploration Problems #58

Open kzmssk opened 5 years ago

kzmssk commented 5 years ago

RNNを使った分散型Q学習アルゴリズムR2D2にエキスパートの軌道からなるReplay Bufferを追加することで探索効率を向上させた

論文本体・著者

解きたい問題

新規性

実装

image
論文 Fig. 1 より 提案学習アルゴリズムの概要図
image
論文 Fig. 3 より 提案タスクセットHard-Eightの8つのタスクの1つ"Baseball"の例

実験・議論

image
論文 Fig. 5 より 提案タスクセットHard-Eightを使ったR2D3と既存手法の比較実験結果
image
論文 Fig. 6 より 全てのタスクにおける提案手法のdemo replayの混合確率ρの比較結果

読んだ中での不明点などの感想

関連論文

mrstash101 commented 4 years ago

Amazed