kuto5046 / papers

読んだ論文を整理するところ
0 stars 0 forks source link

Prioritized Experience Replay #1

Closed kuto5046 closed 4 years ago

kuto5046 commented 4 years ago

Schaul, Tom, Quan, John, Antonoglou, Ioannis, Silver, David http://arxiv.org/abs/1511.05952

published as a conference paper in ICLR2016

kuto5046 commented 4 years ago

DQNの学習にはexperience replayが用いられているがこの手法は一様に経験をサンプリングするためサンプル効率が悪いという課題があった。そこでTD誤差が大きい経験を優先してサンプリングを行い学習効率を改善。 001 002