Shoichi-Hasegawa0628 / summary_paper

0 stars 0 forks source link

複数物体が存在する環境下で共同注意を用いたロボットによる語彙学習 #33

Closed Shoichi-Hasegawa0628 closed 2 years ago

Shoichi-Hasegawa0628 commented 2 years ago

https://www.jstage.jst.go.jp/article/jrsj/39/6/39_39_549/_article/-char/ja/

Shoichi-Hasegawa0628 commented 2 years ago

なぜ読もうと思ったのか? ・どれが指示対象の物体かを判断する研究として,言語理解に関連しそうと思ったから ・Global KnowledgeとLocal Knowledgeのどっちに着目するかにもしかしたら関連しそう?と思ったから.

どんなもの? (Summary)

どんな問題に取り組んだのか?

先行研究と比べてどこがすごい? (従来の研究_1) 複数物体環境は扱ってない. 各シーンで検出される物体領域は1個 (N_s = 1)で,それをZ個のカテゴリに分類する. Z^s個の可能性を考える. ↓ 物体領域候補を複数個 (N_s = 10),それらをZ個のカテゴリに分類する. (N_s*Z)^sの可能性を考える.

(従来の研究_2)→ 特徴の共起性だけを頼りとした方法 (W/O joint Attention-Sampling)は高い精度 (何の精度?)を達成できない.

技術や手法のキモはどこ? OverView

共同注意のやり方 ①教示者の顔向きをdlibで計算し,指示対象物体の位置を推定し,その方向へカメラを向けてシーンを撮影 ②そのシーンに汎用的な物体検出器 (学習物体以外の様々な物体を検出できるように調整)を適用 ③(ロボットが指示対象物体の方向へ向いていると仮定) 対象物体は画像の中心付近にあるため,  - 物体画像上の位置xがシーン画像の中心μを平均としたガウス分布から生成される確率 N (x | μ,σ^2I)  - 検出器から出力される各領域の確信度  の積を計算し,その値が高い上位N_s枚の画像を指示対象物体の候補,これをCNNに突っ込んで特徴量を出す   ④指示物体の候補の画像から1枚の画像の選択のやり方は,物体の単語特徴量から画像特徴量を推論するクロスモーダル推論を使う. そこから,N_s枚の候補から1枚サンプリングする.ただし,シーンsに関する情報を排除したパラメータで推論する (ということは,推論した特徴量に近いやつを1枚選んでいるってこと?)

⑤候補とする画像を溜め込んでおき,あとで一気にMLDAで学習させる

何で有効性を確かめた? 比較手法

またそれぞれに,

評価指標 画像の選択精度 F値で評価,Fsが0.4以上の時,選択した領域が正解と定義 92個のシーンのうち,正解領域を選択できた割合

カテゴリ分類精度 92シーンで選択された画像が正しいカテゴリに分類された割合 (画像選択の成否は考慮してない)

↓↓ result 共同注意を持ちいた手法が良い結果となった

今後何していくの?

分からないところ

キーワードの定義 共同注意:養育者の顔や視線の向きなどから,見ている対象を特定する能力.(共同注意により,養育者が注目している物体を特定でき,養育者が発している単語と物体を結び付けられる) シーン:ロボットの一人称視点

自分はどう思った?

Shoichi-Hasegawa0628 commented 2 years ago

参考サイト https://blog.negativemind.com/2019/02/21/general-object-recognition-yolo/ https://qiita.com/john-rocky/items/12949f1408cb703df081 https://tech-blog.optim.co.jp/entry/2019/03/18/173000#%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6-PrecisionRecallF%E5%80%A4Dice%E4%BF%82%E6%95%B0IoUJaccard%E4%BF%82%E6%95%B0

https://tips-memo.com/python-f-measure