Deep Reinforcement Learning with Double Q-learning

kuto5046 / papers

読んだ論文を整理するところ

0 stars 0 forks source link

Closed kuto5046 closed 4 years ago

kuto5046 commented 4 years ago

van Hasselt, Hado, Guez, Arthur, Silver, David http://arxiv.org/abs/1509.06461

kuto5046 commented 4 years ago

通称DDQN。DQNは価値推定が楽観的であり上振れする課題があった。そこで行動選択用と価値評価用の2つのQ関数を用いることで価値推定の精度を高めた。多くのAtari gamesでDQNと比べてスコアを向上。 IMG_62DD6C58152E-1 IMG_27AF839903F8-1