Closed kuto5046 closed 4 years ago
van Hasselt, Hado, Guez, Arthur, Silver, David http://arxiv.org/abs/1509.06461
通称DDQN。DQNは価値推定が楽観的であり上振れする課題があった。そこで行動選択用と価値評価用の2つのQ関数を用いることで価値推定の精度を高めた。多くのAtari gamesでDQNと比べてスコアを向上。
van Hasselt, Hado, Guez, Arthur, Silver, David http://arxiv.org/abs/1509.06461