renfujiwara / survey

about analytics time-serise data

1 stars 0 forks source link

Deterministic Policy Gradient Algorithms #33

Open renfujiwara opened 3 years ago

renfujiwara commented 3 years ago

https://scholar.google.com/scholar?hl=ja&as_sdt=0%2C5&q=Deterministic+Policy+Gradient+Algorithms&btnG=

renfujiwara commented 3 years ago

どんな論文？

任意の強化学習におけるDeterministic Policy Gradientの存在を証明するとともに、 stochastic policy gradientよりも性能が良くなることを示した。

何を否定している？

Deterministic Policy Gradientはmodel-freeでない強化学習の時のみ存在する。

この手法の肝は？

どのように実証した？

今後の課題