kuto5046 / papers

読んだ論文を整理するところ
0 stars 0 forks source link

Dueling Network Architectures for Deep Reinforcement Learning #4

Closed kuto5046 closed 3 years ago

kuto5046 commented 3 years ago

Wang Ziyu, Schaul Tom, Hessel Matteo, van Hasselt Hado, Lanctot Marc, de Freitas Nando http://arxiv.org/abs/1511.06581

kuto5046 commented 3 years ago

従来のDQNでは任意の状態で行動価値に差がない場合でも全ての行動価値を推定しており学習効率が悪いという課題があった。そこでQ関数にアドバンテージ関数を導入し、状態価値と状態における行動価値を切り分けて計算することで学習効率を改善。 IMG_C10CDA9CC6BC-1