Deep Reinforcement Learning in Large Discrete Action Spaces - Githubissues

TMats / survey

Summary of Paper Survey

https://tmats.github.io/survey/

16 stars 2 forks source link

Deep Reinforcement Learning in Large Discrete Action Spaces #221

Closed TMats closed 6 years ago

TMats commented 6 years ago

https://arxiv.org/abs/1512.07679

Gabriel Dulac-Arnold, Richard Evans, Hado van Hasselt, Peter Sunehag, Timothy Lillicrap, Jonathan Hunt, Timothy Mann, Theophane Weber, Thomas Degris, Ben Coppin
Submitted on 24 Dec 2015 (v1), last revised 4 Apr 2016 (this version, v2)

TMats commented 6 years ago

github

https://github.com/jimkon/Deep-Reinforcement-Learning-in-Large-Discrete-Action-Spaces

TMats commented 6 years ago

1. どんなもの？

巨大な離散的な行動空間における方策のアーキテクチャを提案
行動空間上に連続値のベクトルとして，prototype actionを出力し，そのk近傍の離散的な点として表される行動のQ値に基づいて行動を選択する
行動空間を均一に分割して離散化している

2. 先行研究と比べてどこがすごい？

行動空間を全て使うのではなく，その部分集合のみで強化学習するだけで十分であり，大幅なスピードアップになることを示した．

3. 技術や手法のキモはどこ？

Wolpertinger architecture
- 行動空間を離散化し，k近傍の点における行動のQ値に基づき行動を決定する

4. どうやって有効だと検証した？

MuJoCo，マルチステップのプランニング，リコメンドの3タスク
- wall time, stepごとのスコアを検証

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

行動空間を均等に分割しているがこれでいいのか？
- 行動空間の潜在表現を学習している訳ではない
この論文のようにAを離散表現するのではなく，S×A×Sを抽象化したい