wisteria2gp / DataScience_survey

0 stars 0 forks source link

Yin and Yang: Balancing and Answering Binary Visual Questions (CVPR 2016) #2

Open wisteria2gp opened 4 years ago

wisteria2gp commented 4 years ago

一言でいうと

こちらからの論文 "binary question"に対する改善手法の提案。 "binary question"とは"yes or no"で回答する質問のこと。

この論文ではAbstractScene(イラスト画像)に限っての手法のよう。

論文リンク

https://arxiv.org/abs/1511.05099.pdf

著者/所属機関

Peng Zhang, Yash Goyal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh

投稿日付(yyyy/MM/dd)

2015/11/16

概要

言語が与える回答のための事前情報が強すぎる。 モデル上、どこかで言語情報と視覚情報が合流するが、言語情報は構成が複雑なため難がある(?)。

"binary question"に対する改善手法を提案する。 質問文から画像の核となる部分をタプルで取り出し、そのタプルと視覚情報を照合し"yes or no"を決定する。

新規性・差分

手法

Qからのtuple取り出し(sec4.1)

tuple <P,R,S>をQから取り出す。

P:Primary object R:ralation S:Secondary object

SVOCでいうところの S=P , O=S Rは動詞上の関係や位置関係などで、"目的語をとるV" や "(V+)at,in"などが対応する。

形態素解析的なもので<P,R,S>をQから取り出す。

I内オブジェクトとP,Sの対応関係をとる(sec4.2)

※alignmentはNLPにおいては言語間での単語の対応関係を表した情報のことを指す

P,Sがどの画像を参照するかを確定する。 PやSの単語と、画像のオブジェクトの対応するものを並べる。 ここの手法に従うとのこと。 基準は、画像オブジェクトと単語の相互情報量を用いる。

画像認証(sec4.3)

読みが浅いので保留

画像特徴量の構成(sec4.4)

8 と同様の特徴量構成を行ったとのこと。

画像1枚に付き1432-dim vector

P,Sにそれぞれ563-dim vector オブジェクトカテゴリ(猫と犬とツリーなど) インスタンス(特定のツリーなど) フリップ(つまり、左または右を向く) GMMを介してモデル化された絶対位置 ポーズ(人間と動物の場合) 表情、年齢、性別、肌の色(人間の場合)

プライマリオブジェクトとセカンダリオブジェクト間の相対位置の48次元(モデル化) および他のオブジェクトカテゴリをエンコードする258次元

結果

コメント