Open kzmssk opened 4 years ago
利用と探索のバランスを動的に変えることでATARIのゲーム57個全てで人間を超えする強化学習エージェントの提案
背景
汎用的な強化学習エージェントが難しい理由である問題2つ
長期戦略(Long-term credit assignment): 長い時間をかけた複数の行動選択の結果得られた報酬をどのように割り当てれば良いのかはタスク依存。例:"Skiiing"ではゲーム終了時まで報酬(=スコア)が与えられない。
探索: 正の報酬を得るためにいくつもの報酬ゼロな行動選択を行わないといけない場合がある。例:"Montezuma's Revenge"ではマップを巡ってアイテムを取らないと先に進めない
行動価値の分離
Meta-Controller
学習フレームワークはR2D2と同様に複数のActorと1つのLearnerによる分散強化学習
利用と探索のバランスを動的に変えることでATARIのゲーム57個全てで人間を超えする強化学習エージェントの提案
論文本体・著者
解きたい問題
背景
汎用的な強化学習エージェントが難しい理由である問題2つ
長期戦略(Long-term credit assignment): 長い時間をかけた複数の行動選択の結果得られた報酬をどのように割り当てれば良いのかはタスク依存。例:"Skiiing"ではゲーム終了時まで報酬(=スコア)が与えられない。
探索: 正の報酬を得るためにいくつもの報酬ゼロな行動選択を行わないといけない場合がある。例:"Montezuma's Revenge"ではマップを巡ってアイテムを取らないと先に進めない
新規性
実装
行動価値の分離
Meta-Controller
学習フレームワークはR2D2と同様に複数のActorと1つのLearnerによる分散強化学習
実験・議論
読んだ中での不明点などの感想
関連論文