Closed kuto5046 closed 4 years ago
Schaul, Tom, Quan, John, Antonoglou, Ioannis, Silver, David http://arxiv.org/abs/1511.05952
published as a conference paper in ICLR2016
DQNの学習にはexperience replayが用いられているがこの手法は一様に経験をサンプリングするためサンプル効率が悪いという課題があった。そこでTD誤差が大きい経験を優先してサンプリングを行い学習効率を改善。
Schaul, Tom, Quan, John, Antonoglou, Ioannis, Silver, David http://arxiv.org/abs/1511.05952
published as a conference paper in ICLR2016