異なるポリシーを持つ複数エージェントの強化学習を達成。競争的なタスクも解ける。

論文本体・著者

https://arxiv.org/abs/1706.02275
- NIPS2017
- Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, Igor Mordatch
  - OpenAI

解きたい問題


論文 Fig. 1 より

上の最適なQ,πを求めるためには、Qの更新に、他のエージェントのポリシーが必要になってる。
- Qの更新式に、未来のQ、つまり、未来の全エージェントのactionに依存する値が必要だから
- この式の値を求めるために、他のエージェントのポリシーを別途推定する
- 基本的には実際にとったactionの確率を最大化する教師あり学習

各エージェントそれぞれがばらばらに学習していくことから、局所解に陥りやすい。エピソードごとにsub policyの中から一つを使う、というアンサンブルで解決


論文 Fig.3より

割と自然な拡張なので、今後、マルチエージェントかどうか、で手法の境目は今後なくなっていくような感じは受けた。
non-stationaryが結構言及されていて、実際どれくらいむずいんだ。。と、とても不安に感じた
他エージェントのポリシー推定はマルチエージェントの問題の中心タスクになりそう
- ここでは普通に学習しているが、皆似たようなタスクを解いている、というのはうまくモデリングしていく必要がありそう