issues
search
TMats
/
survey
Summary of Paper Survey
https://tmats.github.io/survey/
16
stars
2
forks
source link
Deep Reinforcement Learning in Large Discrete Action Spaces
#221
Closed
TMats
closed
6 years ago
TMats
commented
6 years ago
https://arxiv.org/abs/1512.07679
Gabriel Dulac-Arnold, Richard Evans, Hado van Hasselt, Peter Sunehag, Timothy Lillicrap, Jonathan Hunt, Timothy Mann, Theophane Weber, Thomas Degris, Ben Coppin
Submitted on 24 Dec 2015 (v1), last revised 4 Apr 2016 (this version, v2)
TMats
commented
6 years ago
github
https://github.com/jimkon/Deep-Reinforcement-Learning-in-Large-Discrete-Action-Spaces
TMats
commented
6 years ago
1. どんなもの?
巨大な離散的な行動空間における方策のアーキテクチャを提案
行動空間上に連続値のベクトルとして,prototype actionを出力し,そのk近傍の離散的な点として表される行動のQ値に基づいて行動を選択する
行動空間を均一に分割して離散化している
2. 先行研究と比べてどこがすごい?
行動空間を全て使うのではなく,その部分集合のみで強化学習するだけで十分であり,大幅なスピードアップになることを示した.
3. 技術や手法のキモはどこ?
Wolpertinger architecture
行動空間を離散化し,k近傍の点における行動のQ値に基づき行動を決定する
4. どうやって有効だと検証した?
MuJoCo,マルチステップのプランニング,リコメンドの3タスク
wall time, stepごとのスコアを検証
5. 議論はある?
6. 次に読むべき論文は?
7. メモ
行動空間を均等に分割しているがこれでいいのか?
行動空間の潜在表現を学習している訳ではない
この論文のようにAを離散表現するのではなく,S×A×Sを抽象化したい
https://arxiv.org/abs/1512.07679