DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料
58 stars 2 forks source link

Agent57: Outperforming the Atari Human Benchmark #59

Open kzmssk opened 4 years ago

kzmssk commented 4 years ago

利用と探索のバランスを動的に変えることでATARIのゲーム57個全てで人間を超えする強化学習エージェントの提案

論文本体・著者

解きたい問題

image
ブログ Fig. 1 より。ゲームの達成スコア中央値が同じである2つのエージェントの例。Agent Aは半分以上のゲームで人間超えの高い性能だが、いくつかのゲームの性能が低い。Agent BはAに比べてトップの性能は低いが全体的に性能が高い。

新規性

実装

image
論文 Fig. 9 より。x: 時刻tの状態, a: 行動, r^e: 外発的報酬, r^i: 内発的報酬, j: 使用する報酬の混合割合のインデックス, h: 行動価値の正規化関数, β: 報酬の混合割合

実験・議論

image
論文 Fig. 1 より。ALEの57ゲーム全ての学習結果。学習に費やしたゲームフレーム数 vs. 人間超えしたゲームの数
image
論文 Fig. 4 より。ALEの中でも特に難しい10個の学習結果
image
論文 Fig. 8 より。学習の進み具合 vs. 収益が最も高い混合割合と割引率の組み合わせの遷移

読んだ中での不明点などの感想

関連論文