IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

一言でいうと

強化学習で大規模な分散学習を行う研究。A3Cでは各エージェントは勾配を中央サーバーに送るが、提案手法(IMPALA)では経験(状態/行動/報酬)をそのまま中央(Learner)に送りそこで学習する。よって末端エージェントはoff-policy学習となるが、各経験に重要度をふるためのV-traceという手法を提案している

論文リンク

https://arxiv.org/abs/1802.01561

著者/所属機関

Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu

DeepMind Technologies

投稿日付(yyyy/MM/dd)

2018/2/5

概要

新規性・差分

手法

結果

公式ブログ https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

arXivTimes / arXivTimes

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures #642

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント