Open icoxfog417 opened 4 years ago
学習済みエージェントの行動履歴から学習するOffline強化学習の研究。Offline(新しいデータが取れない)状態で汎化させるため、複数エージェントの価値予測をランダムにアンサンブルして予測を行う(Random Ensemble Mixture)。これにより元エージェントを上回る性能を獲得。強化学習版蒸留ともいえる。
https://arxiv.org/abs/1907.04543v3
Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi
2019/7/10
解説記事 https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html
実装 https://offline-rl.github.io/
一言でいうと
学習済みエージェントの行動履歴から学習するOffline強化学習の研究。Offline(新しいデータが取れない)状態で汎化させるため、複数エージェントの価値予測をランダムにアンサンブルして予測を行う(Random Ensemble Mixture)。これにより元エージェントを上回る性能を獲得。強化学習版蒸留ともいえる。
論文リンク
https://arxiv.org/abs/1907.04543v3
著者/所属機関
Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi
投稿日付(yyyy/MM/dd)
2019/7/10
概要
新規性・差分
手法
結果
コメント
解説記事 https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html