Open kzmssk opened 5 years ago
分散Q学習にRNNを導入、経験再生における隠れ層の扱い方を実験的に解析
既存手法として零ベクトルを常に初期値として使う(Zero-State)と比較をした
データ収集時とReplay時に予測されたQ値(モデル予測)がどれくらい異なるのかを実験的に評価した(下のFig. 1の(a)がQ値の違いを計算する方法を示している)
Zero-StateよりもStored-Stateの結果がよかった
Burn-inのステップ幅は部分的にしか効果がなかった
分散Q学習にRNNを導入、経験再生における隠れ層の扱い方を実験的に解析
論文本体・著者
解きたい問題
新規性
実装
実験・議論
既存手法として零ベクトルを常に初期値として使う(Zero-State)と比較をした
データ収集時とReplay時に予測されたQ値(モデル予測)がどれくらい異なるのかを実験的に評価した(下のFig. 1の(a)がQ値の違いを計算する方法を示している)
Zero-StateよりもStored-Stateの結果がよかった
Burn-inのステップ幅は部分的にしか効果がなかった
読んだ中での不明点などの感想
関連論文