arXivTimes / arXivTimes

repository to research & share the machine learning articles
https://arxivtimes.herokuapp.com/
MIT License
3.89k stars 201 forks source link

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures #642

Open icoxfog417 opened 6 years ago

icoxfog417 commented 6 years ago

一言でいうと

強化学習で大規模な分散学習を行う研究。A3Cでは各エージェントは勾配を中央サーバーに送るが、提案手法(IMPALA)では経験(状態/行動/報酬)をそのまま中央(Learner)に送りそこで学習する。よって末端エージェントはoff-policy学習となるが、各経験に重要度をふるためのV-traceという手法を提案している

image

論文リンク

https://arxiv.org/abs/1802.01561

著者/所属機関

Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu

投稿日付(yyyy/MM/dd)

2018/2/5

概要

新規性・差分

手法

結果

コメント

公式ブログ https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/

icoxfog417 commented 6 years ago

実装が公開 https://github.com/deepmind/scalable_agent