PGQ: Combining policy gradient and Q-learning - Githubissues

rl-tokyo / survey

強化学習論文のサーベイリポジトリ

13 stars 5 forks source link

PGQ: Combining policy gradient and Q-learning #5

Open sotetsuk opened 7 years ago

sotetsuk commented 7 years ago

https://arxiv.org/abs/1611.01626

sotetsuk commented 7 years ago

8/10

sotetsuk commented 7 years ago

議論・疑問・コメント

なんで方策勾配の停留点とほど遠い点でも、停留点付近での関係式からQチルダを作ってそれにベルマン最適で正則化かけて更新して良いのか良くわからなかった
方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。
Eq.4からπとVだけを使って（妥当な）Qを計算しているのがPGQのポイントだと思った。

他に読むべき文献

PCL: https://arxiv.org/abs/1702.08892