Open icoxfog417 opened 6 years ago
強化学習で大規模な分散学習を行う研究。A3Cでは各エージェントは勾配を中央サーバーに送るが、提案手法(IMPALA)では経験(状態/行動/報酬)をそのまま中央(Learner)に送りそこで学習する。よって末端エージェントはoff-policy学習となるが、各経験に重要度をふるためのV-traceという手法を提案している
https://arxiv.org/abs/1802.01561
Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu
2018/2/5
公式ブログ https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/
実装が公開 https://github.com/deepmind/scalable_agent
一言でいうと
強化学習で大規模な分散学習を行う研究。A3Cでは各エージェントは勾配を中央サーバーに送るが、提案手法(IMPALA)では経験(状態/行動/報酬)をそのまま中央(Learner)に送りそこで学習する。よって末端エージェントはoff-policy学習となるが、各経験に重要度をふるためのV-traceという手法を提案している
論文リンク
https://arxiv.org/abs/1802.01561
著者/所属機関
Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, Koray Kavukcuoglu
投稿日付(yyyy/MM/dd)
2018/2/5
概要
新規性・差分
手法
結果
コメント
公式ブログ https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/