TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors

どんなもの？ (Summary)

学習された常識的なオブジェクトの配置
部屋の配置の事前分布 ⇒乱れたシーンを片付ける体現型エージェント、TIDEE

AI2THORのシミュレータ環境で実行部屋の再編成に関する人間による評価をした

・視覚的意味論的な「場違い」検出器・物体への探索を誘導する視覚的探索ネットワーク・物体や関係のMemex神経グラフ記憶により、もっともらしい物体文脈を推測どうやらEnd-to-Endなネットワークらしいこれらがキー

どんな問題に取り組んだのか？ ロボットが家庭環境で動作し、人間の日常生活を支援するためには、ステップバイステップの指示に従うだけでなく、期待や先入観、規範に反する状況下で主体的に行動を起こし、人間の不完全な指示やノイズを効果的に解釈する必要. ⇒ つまり，常識必要 ⇒⇒ 常識は，自然言語による知識・統計的な知識 (視覚による常識は表現力豊か)

先行研究と比べてどこがすごい？ (学習した事前知識に依存するが) オブジェクトの配置に関する明示的な指示なしに、ピクセルと深度の入力から直接、新規の室内環境を整頓することを試みた．

Emnodied AI ObjNav [SemExpなど]，PointNavなど ⇒ 部屋の片付けタスクは本研究が初．

知識グラフ グラフニューラルネットワーク Yangら：各ノードは意味的な物体カテゴリ自分ら：意味的・視覚的特徴の両方を埋め込んだ物体インスタンス

技術や手法のキモはどこ？ 2次元の占有格子地図 (探索，ナビゲーション用)と3次元の占有Semantic Map (置き場所の推論に使用) →　マップはタイムステップごとに更新する (何を？：わからない)

・場違いな (out-of-place (OOP))物体の検出視覚OOP分類器 (dDER-OOP)：d-DER (MS-COCOでpre-train，AI2THORの訓練ハウスでファインチューン)に，物体の位置特定・カテゴリ・場所内場所外を学習させる言語OOP分類器 (BERT-OOP)：検出物体のクラスを用いて，(1) A supported by B, (2) A next-to B, (3) A closet-to Bのような形式で記述し，BERTにぶちこむ ⇒⇒ 二つの特徴量を連結し，MLPで予測？

ニューラル連想グラフメモリーによる物体コンテキストの推論 ノードとエッジは， 20軒のトレーニングハウスから5軒が使用され，物体の矩形領域を用いたカテゴリ埋め込み・ROIプールした特徴量 (物体の領域を集約したものらしい)から構成．➡ Memexと呼ぶ推論時は，Memexと一人称画像のクラスとROIプールのカテゴリ埋め込みのノードから構築したScene-graphで予測するらしい． ⇒ グラフ推論はAppendix
ルーム名を何らかのNNに入力して，地図上の確率値を得て，ナビゲーション

何で有効性を確かめた？ TIDEEの性能，視覚的特徴のみと比較，探索の観点評価キッチン，リビング，バスルーム，ベッドルームでテスト．

評価：物体の再配置の定量的評価は困難 (いくつもの妥当な候補があるので) ⇒ Amazonのメカニカルタークで人間の評価者に物体の再配置が妥当な方を選んでもらう．

比較手法・CommonMemory：最も一般的な配置場所を選ぶ・WithoutMemex：Memexをグラフ推論に使用しない・3DSmntMap2Place：現在のシーンで再配置を提案・RandomReceptacle：ランダム・MessayPlacement：乱雑なシーンにおけるOOPの位置に置く (そのまま？) ・AI2THORPlacement：元のシーンにおけるOOPの位置 (そもそも再配置するか否か的な)

↓ 結果 Table1：そもそもランダムでも40%は配置が好まれないって結構悪そう． TIDEE_e

物体検出の評価もしてる探索の評価には，かかったステップ数，トライアル成功率の比較片付けのベンチマークでも評価

議論したいことは？ i) 物体の開閉状態や、乱雑・再編成プロセスの一部としての3Dポーズは考慮されていない。 ii) 物体の配置をランダムに変えて作成した乱雑な部屋は、人間の環境における乱雑さと一致しない場合がある。

個人的に大事な部分 グラフ推論 (Appendix, S2.8，S2.9) Schlichtkrull, M., Kipf, T.N., Bloem, P., Van Den Berg, R., Titov, I., Welling, M.: Modeling relational data with graph convolutional networks. In: European semantic web conference. pp. 593–607. Springer (2018) ⇒ 読む必要 ⇒ 関係グラフ畳み込みネットワーク (rGCN)を使った

・メモリグラフ内のメッセージパス・メモリ，シーン，場違いノードの橋渡し

分からないところ ・常識はどうやって作ったのか？ ⇒ AI2THORの訓練データでトレーニングされたrGCNであるMemex，物体検出器が該当？

Conclusionに， We have introduced TIDEE, an agent that tidies up rooms in home environments using commonsense priors encoded in visuo-semantic out of place detectors, visual search networks that guide exploration to objects, and a Memex neural graph memory of objects and relations that infers plausible object context. とあるので，やはり物体検出器から探索に使われる事前学習したものを常識と言っている．

・命令の仕方は？　 ⇒ 物体の個数を指定して，片付けさせる

・言語処理の仕方は？ ⇒ 明示的な言語は与えず，一人称視点画像 ⇒ クラス埋め込み表現 + 画像の埋め込み表現 ⇒ rGCNで処理って感じ

キーワードの定義 Egomotion：カメラの動きの速さ？

Shoichi-Hasegawa0628 / summary_paper

TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors #44