Closed Shoichi-Hasegawa0628 closed 2 years ago
1. どんなもの? ・Object Goal Navigationのための強化学習手法 ・物体やシーンの長期の観測をベースとし,3Dのインドア環境で目標物体を探す
・Object Memory Transformer ・Object Scene Memory (OSM):長期のシーンや物体のsemanticsを貯める ・OSMにある以前観測したシーンや物体のシーケンスの中で,目立つ物体をTransformerに対応させる
どんな問題に取り組んだのか? どのくらいの物体や一人称視点 (scene)の長期履歴がObjNavタスクのナビゲーションのパフォーマンスを改善させるか? → 長期履歴だけは改善しないことがわかった.長期履歴とtemporal encodingを組み合わせることは必須である.
2. 先行研究と比べてどこがすごい? 最近のDRL (Deep Reinforcement Learning) 一時的なcontextが独立している → エピソード内で以前見た物体の情報が不足していたり,物体が現れる順序を無視している
RNN (LSTMなど) 長期範囲シーケンスの順序を理解できているかどうかは明らかでない
技術や手法のキモはどこ?
・特徴量抽出 sceneの特徴量 ((v^-)_t): 400×300のRGB画像v_tを事前学習済みResNet-50に入れて,2048次元の特徴量を抽出
target objectの特徴量: 2段階に分かれてる ・target objectの単語w_gをword2vecを使い,300次元の単語埋め込み表現を得る (ターゲットのsemantic feature) ・現在の視点での「物体のsemantics」を得るために,object context grid representation (object grid [2]) o_tは16×16のセルを持つ配列からなり,各セルの値は対象物と検出物体の類似性を表す. ⇒ (各セルの位置は矩形領域の中心に対応?座標系違うのにどうやって対応させてるの?) 特徴量が提案された原著見ても分からなかった https://ieeexplore.ieee.org/document/8963758 画像サイズを無理やり16×16に合わせている? ⇒ 共著者に聞いたところ,そうらしい (?) context vectorの有用性は説明されたけど,よく分からなかった.
セルに入る値は,検出物体 (Gridのi行, j列に対応)と対象物の埋め込み表現をコサイン類似度で計算したものが入る.
① Object Scene Memory O_tやv_tをf_oとf_vの抽出器を使って,抽出し, それらをf_mを使って融合し,m_tという特徴量を毎時刻ごとに得る. (ただし,T履歴の長さで得る,リングバッファとして考えられる. → ということは,T後には前のTは忘れている?)
② 改造したTransformer m_tとtemporal encodingのM^TE (これは,f_encに入る)からxを計算する.
・Temporarl Encoding 三角関数を使って,「エージェントがエピソード内で観測した順序」利用する. (位置エンコーディングとはどの部分が異なる?) ↓
・Controller Asynchronous Advantage Actor-Critic (A3C)を使う
報酬設計 → これはあとでqiitaで見てみる
どうやって有効だと検証した? arxivにlongバージョンがあるらしい
実験環境
評価指標
Success rate (SR) Nはエピソード数,{I^i}_goalは成否を指し,成功なら1,それ以外は0
Success weighted by path length (SPL) ObjNav系の評価指標についてまとめている論文を参考 (https://arxiv.org/abs/1807.06757) d*は初期posからtargetのposまでの与えられたシーンにおける最短距離 d_iはi番目のエピソードの距離
比較手法
Random 環境の複雑さを見せるために実装 行動をランダムに取る
Scene Prior (SP) [2]よって開発された[1] Graph Convolution Networks (GCNs),各ノードが物体のクラス,各エッジは"next"などの関係性を指す 原著とは扱う観測が異なり,物体の空間的なcontextを新たに扱わない. 4フレーム (staked frameって何?)を入力するけど,それを現在の観測とする
Baseline [2] temporal informationは使わない 4フレームを観測として入力 (4フレームは同じ画像?それともt = 1~4?) 3層のLSTMモデルを使った
OMT メモリサイズを4, 16, 32と変化させた 1層のtransformer
結果 beselinesとの比較 SR,SPLともに提案手法が高い SOTA (state-of-the-art)との比較 若干の実験条件は違うけど,良い
ablation study
定性評価 (地図上の軌道) this is because OMT can perceive the continuity and changes of observations over time. In particular, the OMT recognizes its deadlock state when the same observations continue to be perceived over a long time
our proposal of utilizing the long-term information can help guide the agent in complex ObjNav tasks, where the agent cannot see the goal object at the start position, especially in settings where the distance between the start and goal is long.
次に読むべき論文は? 7. 定義や専門用語 scene:エージェントが一人称視点で撮った1枚のRGB画像 objects:sceneに存在する矩形領域
ObjNav (Object goal navigation):一人のエージェントが一人称視点を参照しながら, 一つの単語が与えられた対象物に向かってナビゲートするタスク.
仮定: we assume the ground truth object labels and bounding boxes for all the objects in the view are available following
コサイン類似度: 2つのベクトルが「どのくらい似ているか」という類似性を表す尺度 2つのベクトルがなす角のコサイン値のこと https://atmarkit.itmedia.co.jp/ait/articles/2112/08/news020.html
vやoで特徴量抽出してるのに,さらに特徴量抽出するの何か変 → Transformerに合うようにしている?
エピソード 強化学習に与えられた環境に対する行動の開始から終了までの期間を1エピソードと呼びます。 各エピソードは、ターゲットオブジェクトが見える位置でエージェントが「Done」アクションを選択すれば成功、そうでなければ失敗とみなされる。
history long-term history of observed scenes and objects
https://arxiv.org/abs/2203.14708