issues
search
rl-tokyo
/
survey
強化学習論文のサーベイリポジトリ
13
stars
5
forks
source link
PGQ: Combining policy gradient and Q-learning
#5
Open
sotetsuk
opened
7 years ago
sotetsuk
commented
7 years ago
https://arxiv.org/abs/1611.01626
sotetsuk
commented
7 years ago
8/10
https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md
https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE-short%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md
https://docs.google.com/presentation/d/1P_ks8cqXcQmc8rBk7QlxcBHwfSdlNYnPmnWF0yj_nYs/edit#slide=id.g204c49cbd5_0_45
sotetsuk
commented
7 years ago
議論・疑問・コメント
なんで方策勾配の停留点とほど遠い点でも、停留点付近での関係式からQチルダを作ってそれにベルマン最適で正則化かけて更新して良いのか良くわからなかった
方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。
Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。
他に読むべき文献
PCL:
https://arxiv.org/abs/1702.08892
https://arxiv.org/abs/1611.01626