Closed kuto5046 closed 3 years ago
Wang Ziyu, Schaul Tom, Hessel Matteo, van Hasselt Hado, Lanctot Marc, de Freitas Nando http://arxiv.org/abs/1511.06581
従来のDQNでは任意の状態で行動価値に差がない場合でも全ての行動価値を推定しており学習効率が悪いという課題があった。そこでQ関数にアドバンテージ関数を導入し、状態価値と状態における行動価値を切り分けて計算することで学習効率を改善。
Wang Ziyu, Schaul Tom, Hessel Matteo, van Hasselt Hado, Lanctot Marc, de Freitas Nando http://arxiv.org/abs/1511.06581