Closed kuto5046 closed 4 years ago
Hafner, Danijar et al. http://arxiv.org/abs/2010.02193
個別に訓練された世界モデルを用いて学習することにより、atariで人間レベルの性能を初めて達成したDreamerV2を提案。分散学習は使用せず単一GPUを用いて10日間学習した結果、同一学習条件のrainbowやIQNを超えた。
Hafner, Danijar et al. http://arxiv.org/abs/2010.02193