Machine Theory of Mind - Githubissues

DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料

58 stars 2 forks source link

Machine Theory of Mind #36

Open kogaki opened 6 years ago

kogaki commented 6 years ago

Machine Teory of Mind: ふるまいから、他のエージェントのポリシーを推定する。間違いも模倣できる

論文本体・著者

https://arxiv.org/abs/1802.07740
Neil C. Rabinowitz, Frank Perbet, H. Francis Song, Chiyuan Zhang, S.M. Ali Eslami, Matthew Botvinick
- DeepMind

解きたい問題


Sally Anne Test。 Sallyの視点から考えると、りんごはバスケットに入っているはず、Anneの視点から考えるとりんごは箱に入っているはず、というのを、それぞれの視点に立って考えられるか。

Theory Of Mind
- もともと心理学の話
- "他者の考えを推測する"問題を解けるかが、たとえば自閉症の診断に使える
- https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test
Machine Theory Of Mind
- 他のエージェントの振る舞いから、他のエージェントのポリシーを推測するタスク
- 関連する話
  - 逆強化学習
  - Bayesian Theory of Mind
- ↑よりも、よりスクラッチからやってることが一つのポイント

新規性

Deep Learningベースで、Theory of Mindを学習する、というタスク

実装

メタラーニング
- I/O
- 入力: あるエージェントがポリシーΠ_iに則ってNステップ行動した軌跡
- 出力: そのエージェントが別のシーンではどういう行動をするか
- つまり、特定のポリシーを学習するのではなく、ポリシーの推定方法を学習する


ToM(Theory of Mind)-netのコンポーネント

ネットワークは以下の3コンポーネントでなる
- 模倣対象のエージェントの、別シーンでの軌跡をつかって、動きのパタンを学習するcharacter net
- 現在シーンで、自分が取った軌跡、を、もし対象エージェントが通った時の内部状態(後述)の変化を模倣するmental net
- これらの動きパタンと内部状態を用いて次のactionの確率を出力するprediction net
それぞれのネットワークの実装は実験によって異なり、内部状態が変わらない問題では、mental netは用いられない

実験・議論

以下の3ステップでより複雑なエージェントの実験を行なっている

状況によらずに、確率的にアクションをとり続けるエージェント(実験1)
各々のゴールに向かって、最適なパスをとるエージェント(実験2)
深層強化学習を用いて訓練され+全体の一部しか見えないエージェント(実験3,4,5)

実験2


論文 Fig. 4 より / (a) エージェントは自分のゴールに向かって最適なパスを通る(ただしマルコフ決定)。ToM-netは、エージェントの振る舞い(a)と現在の状態(b)から未来の行動(d)を出力する


論文 Fig. 5 より / ただしToM-netはゴールに至るまでの全ての振る舞いを見せてもらえるわけではない。(c) 振る舞いのうち0,1,5ステップだけ見せてもらった時の推定されたポリシー。

実験4: Sally Anne Testの再現


論文 Fig.10より / エージェント(Sally)から見えない位置でゴールが帰らられてしまうことがあるシチュエーション。サブゴール(星)に到達したら、稀に、次のゴール(青)が移動されてしまう。

左のシチュエーションでは、Sallyから見えている範囲でゴールが変わる。なので、予測(d)は、即座にピンクを避ける / 青に向かうを選択できている
右のシチュエーションでは、 Sallyから見えないところで ゴールが変えられてしまった
- 予測(d)は 1) swapは稀なのでまずはもともと青があった方に向かう 2) ピンクに変わってたので避ける 3) 今まで行ってない方に青があるはずなので右に向かうという行動をとっている
- ToM-netは真の青の位置を知っていながらこのトレースができることに注意！
もう一点実験2と違い、星 -> 自分の好きな色という二段階のゴールがある、これをmental net部分でモデル化できていることにも注意

読んだ中での不明点などの感想

書ききれなかったけど、とにかく5つの実験の設定が多様な視点で面白い
- Experimentsの章が13ページ中8ページをしめる
- 工学バリバリの話と違って、"何が解けるとうれしいか"の設計もとっても大事だもんな
実験結果の評価も面白い
- ベイズで求めた確率分布と一致する出力をしてるとか
- 入力ステップ数が0の時には事前分布ができていて、増やしてくと事後分布が変化していくとか

関連論文

34 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
- OpenAI。マルチエージェントの強化学習で、他のエージェントのポリシーを推定する機構を入れている。非常に近い問題意識と感じる。こちらはコミュニケーションをさらに重視。
逆強化学習
- ただし、"解こうとしている問題"を推定するのではなく"解き方"を推定するのが大きく違う
- 非最適解もちゃんと模倣する