Closed Shoichi-Hasegawa0628 closed 2 years ago
なぜ読もうと思ったのか? ・どれが指示対象の物体かを判断する研究として,言語理解に関連しそうと思ったから ・Global KnowledgeとLocal Knowledgeのどっちに着目するかにもしかしたら関連しそう?と思ったから.
どんなもの? (Summary)
どんな問題に取り組んだのか?
先行研究と比べてどこがすごい? (従来の研究_1) 複数物体環境は扱ってない. 各シーンで検出される物体領域は1個 (N_s = 1)で,それをZ個のカテゴリに分類する. Z^s個の可能性を考える. ↓ 物体領域候補を複数個 (N_s = 10),それらをZ個のカテゴリに分類する. (N_s*Z)^sの可能性を考える.
(従来の研究_2)→ 特徴の共起性だけを頼りとした方法 (W/O joint Attention-Sampling)は高い精度 (何の精度?)を達成できない.
技術や手法のキモはどこ?
共同注意のやり方 ①教示者の顔向きをdlibで計算し,指示対象物体の位置を推定し,その方向へカメラを向けてシーンを撮影 ②そのシーンに汎用的な物体検出器 (学習物体以外の様々な物体を検出できるように調整)を適用 ③(ロボットが指示対象物体の方向へ向いていると仮定) 対象物体は画像の中心付近にあるため, - 物体画像上の位置xがシーン画像の中心μを平均としたガウス分布から生成される確率 N (x | μ,σ^2I) - 検出器から出力される各領域の確信度 の積を計算し,その値が高い上位N_s枚の画像を指示対象物体の候補,これをCNNに突っ込んで特徴量を出す ④指示物体の候補の画像から1枚の画像の選択のやり方は,物体の単語特徴量から画像特徴量を推論するクロスモーダル推論を使う. そこから,N_s枚の候補から1枚サンプリングする.ただし,シーンsに関する情報を排除したパラメータで推論する (ということは,推論した特徴量に近いやつを1枚選んでいるってこと?)
⑤候補とする画像を溜め込んでおき,あとで一気にMLDAで学習させる
何で有効性を確かめた? 比較手法
またそれぞれに,
評価指標 画像の選択精度 F値で評価,Fsが0.4以上の時,選択した領域が正解と定義 92個のシーンのうち,正解領域を選択できた割合
カテゴリ分類精度 92シーンで選択された画像が正しいカテゴリに分類された割合 (画像選択の成否は考慮してない)
↓↓ 共同注意を持ちいた手法が良い結果となった
今後何していくの?
共同注意
言語モデルの学習との統合 (MLDA + NPYLM)
共同注意が不完全な環境 (共同注意の失敗により,シーン内に指示対象物体が存在しない環境) → "ロボットの語彙学習のための主観的整合性に基づくマルチモーダルカテゴリゼーション"との統合を検討
分からないところ
教示というキーワードが気になる. 「養育者」「教示」と出てるから,教えるのが前提なのだろうか?
「学習プロセスを確率的に定式化」に関して,深層生成モデルを使ってこの定式化をネットワーク構造として組み込むことは困難がよく分からない ⇒ ギブスサンプリングが使えない話?
キーワードの定義 共同注意:養育者の顔や視線の向きなどから,見ている対象を特定する能力.(共同注意により,養育者が注目している物体を特定でき,養育者が発している単語と物体を結び付けられる) シーン:ロボットの一人称視点
自分はどう思った?
参考サイト https://blog.negativemind.com/2019/02/21/general-object-recognition-yolo/ https://qiita.com/john-rocky/items/12949f1408cb703df081 https://tech-blog.optim.co.jp/entry/2019/03/18/173000#%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6-PrecisionRecallF%E5%80%A4Dice%E4%BF%82%E6%95%B0IoUJaccard%E4%BF%82%E6%95%B0
https://www.jstage.jst.go.jp/article/jrsj/39/6/39_39_549/_article/-char/ja/