arXivTimes / arXivTimes

repository to research & share the machine learning articles
https://arxivtimes.herokuapp.com/
MIT License
3.9k stars 201 forks source link

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study #1741

Open icoxfog417 opened 4 years ago

icoxfog417 commented 4 years ago

一言でいうと

On-Policyの実装で論文に書かれていない実装やパラメーターの影響を調べた研究。組み合わせの数は膨大なので候補は絞り込んでいる。損失関数はPPO、最終レイヤは重みを1/100にしてsoftplusの後マイナス方向スライドしたほうがいい、など細かすぎるテクニックが紹介されている

論文リンク

https://arxiv.org/abs/2006.05990

著者/所属機関

Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem

投稿日付(yyyy/MM/dd)

2020/6/10

概要

新規性・差分

手法

結果

コメント

icoxfog417 commented 4 years ago

似た論文

Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO https://arxiv.org/abs/2005.12729

icoxfog417 commented 4 years ago

解説スライド https://www.slideshare.net/DeepLearningJP2016/what-matters-in-onpolicy-reinforcement-learning-a-largescale-empirical-study-arxiv20