Closed kuto5046 closed 4 years ago
Horgan, Dan et al. http://arxiv.org/abs/1803.00933
分散学習と優先的経験再生を組みあわせて、圧倒的な性能向上と学習時間の短縮を実現。Atariでは多くのアルゴリズムの約半分の学習時間で100倍のフレームを学習。離散行動環境であるAtariだけでなく、ロボット制御等の連続行動環境でも同様の性能向上を確認。
Horgan, Dan et al. http://arxiv.org/abs/1803.00933