Closed kuto5046 closed 4 years ago
Espeholt, Lasse, Marinier, Raphaël, Stanczyk, Piotr, Wang, Ke, Michalski, Marcin http://arxiv.org/abs/1910.06591
スケーラブルな強化学習エージェントを提案。TPU等の利用により1sあたり数百万フレームの学習を可能とし、既存手法の実験コストを低減する。学習アルゴリズムにはIMPALA/V-traceとR2D2を採用。kaggleで現在開催中のGoogle Research Football環境でSOTAを達成。
Espeholt, Lasse, Marinier, Raphaël, Stanczyk, Piotr, Wang, Ke, Michalski, Marcin http://arxiv.org/abs/1910.06591