Open kogaki opened 6 years ago
異なるポリシーを持つ複数エージェントの強化学習を達成。競争的なタスクも解ける。
各エージェントそれぞれがばらばらに学習していくことから、局所解に陥りやすい。エピソードごとにsub policyの中から一つを使う、というアンサンブルで解決
異なるポリシーを持つ複数エージェントの強化学習を達成。競争的なタスクも解ける。
論文本体・著者
解きたい問題
新規性
実装
マルチエージェント・Actor-criticでの学習
他のエージェントのポリシーの推定
アンサンブル学習
各エージェントそれぞれがばらばらに学習していくことから、局所解に陥りやすい。エピソードごとにsub policyの中から一つを使う、というアンサンブルで解決
実験・議論
読んだ中での不明点などの感想
関連論文
33
36 Machine Theory of Mind