DwangoMediaVillage / paper_readings

Dwango Media Village内で行われている論文紹介の資料
58 stars 2 forks source link

Machine Theory of Mind #36

Open kogaki opened 6 years ago

kogaki commented 6 years ago

Machine Teory of Mind: ふるまいから、他のエージェントのポリシーを推定する。間違いも模倣できる

論文本体・著者

解きたい問題

Sally Anne Test。 Sallyの視点から考えると、りんごはバスケットに入っているはず、Anneの視点から考えるとりんごは箱に入っているはず、というのを、それぞれの視点に立って考えられるか。

新規性

実装

image
ToM(Theory of Mind)-netのコンポーネント

実験・議論

以下の3ステップでより複雑なエージェントの実験を行なっている

実験2

image
論文 Fig. 4 より / (a) エージェントは自分のゴールに向かって最適なパスを通る(ただしマルコフ決定)。ToM-netは、エージェントの振る舞い(a)と現在の状態(b)から未来の行動(d)を出力する
image
論文 Fig. 5 より / ただしToM-netはゴールに至るまでの全ての振る舞いを見せてもらえるわけではない。(c) 振る舞いのうち0,1,5ステップだけ見せてもらった時の推定されたポリシー。

実験4: Sally Anne Testの再現

image
論文 Fig.10より / エージェント(Sally)から見えない位置でゴールが帰らられてしまうことがあるシチュエーション。サブゴール(星)に到達したら、稀に、次のゴール(青)が移動されてしまう。

読んだ中での不明点などの感想

関連論文