An Optimistic Perspective on Offline Reinforcement Learning

一言でいうと

学習済みエージェントの行動履歴から学習するOffline強化学習の研究。Offline(新しいデータが取れない)状態で汎化させるため、複数エージェントの価値予測をランダムにアンサンブルして予測を行う(Random Ensemble Mixture)。これにより元エージェントを上回る性能を獲得。強化学習版蒸留ともいえる。

論文リンク

https://arxiv.org/abs/1907.04543v3

著者/所属機関

Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi

Google Research
University of Alberta

投稿日付(yyyy/MM/dd)

2019/7/10

概要

新規性・差分

手法

結果

解説記事 https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html

arXivTimes / arXivTimes

An Optimistic Perspective on Offline Reinforcement Learning #1658

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント