arXivTimes / arXivTimes

repository to research & share the machine learning articles
https://arxivtimes.herokuapp.com/
MIT License
3.89k stars 201 forks source link

An Optimistic Perspective on Offline Reinforcement Learning #1658

Open icoxfog417 opened 4 years ago

icoxfog417 commented 4 years ago

一言でいうと

学習済みエージェントの行動履歴から学習するOffline強化学習の研究。Offline(新しいデータが取れない)状態で汎化させるため、複数エージェントの価値予測をランダムにアンサンブルして予測を行う(Random Ensemble Mixture)。これにより元エージェントを上回る性能を獲得。強化学習版蒸留ともいえる。

論文リンク

https://arxiv.org/abs/1907.04543v3

著者/所属機関

Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi

投稿日付(yyyy/MM/dd)

2019/7/10

概要

新規性・差分

手法

結果

コメント

解説記事 https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html

icoxfog417 commented 4 years ago

実装 https://offline-rl.github.io/