Open icoxfog417 opened 4 years ago
On-Policyの実装で論文に書かれていない実装やパラメーターの影響を調べた研究。組み合わせの数は膨大なので候補は絞り込んでいる。損失関数はPPO、最終レイヤは重みを1/100にしてsoftplusの後マイナス方向スライドしたほうがいい、など細かすぎるテクニックが紹介されている
https://arxiv.org/abs/2006.05990
Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
2020/6/10
似た論文
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO https://arxiv.org/abs/2005.12729
解説スライド https://www.slideshare.net/DeepLearningJP2016/what-matters-in-onpolicy-reinforcement-learning-a-largescale-empirical-study-arxiv20
一言でいうと
On-Policyの実装で論文に書かれていない実装やパラメーターの影響を調べた研究。組み合わせの数は膨大なので候補は絞り込んでいる。損失関数はPPO、最終レイヤは重みを1/100にしてsoftplusの後マイナス方向スライドしたほうがいい、など細かすぎるテクニックが紹介されている
論文リンク
https://arxiv.org/abs/2006.05990
著者/所属機関
Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
投稿日付(yyyy/MM/dd)
2020/6/10
概要
新規性・差分
手法
結果
コメント