Closed kuto5046 closed 4 years ago
Nair, Arun et al. http://arxiv.org/abs/1507.04296
これまでの深層強化学習は単一GPUでの処理が前提となっていた。そこで深層強化学習に分散処理を適用し、処理速度を向上。Q関数を学習するLearner,環境上で行動するActor,パラメータサーバの3つで構成。従来のおよそ1/3の時間でDQNのスコアを超えた。
Nair, Arun et al. http://arxiv.org/abs/1507.04296