What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study

icoxfog417 commented 4 years ago

一言でいうと

On-Policyの実装で論文に書かれていない実装やパラメーターの影響を調べた研究。組み合わせの数は膨大なので候補は絞り込んでいる。損失関数はPPO、最終レイヤは重みを1/100にしてsoftplusの後マイナス方向スライドしたほうがいい、など細かすぎるテクニックが紹介されている

論文リンク

https://arxiv.org/abs/2006.05990

著者/所属機関

Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem

arXivTimes / arXivTimes

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study #1741

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント