wisteria2gp / DataScience_survey

0 stars 0 forks source link

VQA: Visual Question Answering (ICCV 2015) #1

Open wisteria2gp opened 4 years ago

wisteria2gp commented 4 years ago

一言でいうと

こちらのVQAタスクの提案とベースラインモデルの紹介論文。

論文リンク

http://arxiv.org/abs/1505.00468.pdf

著者/所属機関

Aishwarya Agrawal, Jiasen Lu, Stanislaw Antol, Margaret Mitchell, C. Lawrence Zitnick, Dhruv Batra, Devi Parikh

投稿日付(yyyy/MM/dd)

2015/05/03

概要

新規性・差分

手法

結果

コメント

wisteria2gp commented 4 years ago

趣旨とデータセット

VQA=画像+質問文のセットに答えるタスク

本論文提供データセットでは、実画像(real image)と簡易イラスト画像(abstract scene)とそれに対する質問文を用意。

過去のVQAとその類似タスクと、彼らの提案するVQAタスクを比較して、量・質ともに優れたタスクを構築したということを主張している。

特に、問題量がきわめて多いことと、解答に画像認識と常識の両面が必要になることを意識して作成したという点が強調されていると感じる。

データセットの分析

問題セット全体としての解析も示している。問題分類を5W1H+"Does... , Are ... , Is the ..."系などに分類した統計(さらにそれに続く語などについても有)、解答に関する統計など。 解答の統計から、9割の質問の答えが1語、2語は6%強、となっているため文章で回答するという趣はほぼなさそう。選択肢の問題もあり(すべて18択にしているとのこと)。多い解答としては"yes,no"や"1,2,3..."などが挙がっている(問題構成としては当然か)。

正解の基準

採点基準としては、AIの回答に対して accuracy=min(同じ回答をした人数/3 , 1) となっている。よって3人以上が答えたものをだせるとaccuracy 1 (クイズ番組みたい...)。 なお、すべての質問に10人の人間が回答している。

wisteria2gp commented 4 years ago

ベースラインとメソッド

ベースライン

  1. random データセットの解答の出現頻度上位1000からランダムに出力

  2. prior("yes") すべてにyes!

  3. per Q-type prior それぞれの問題系統に対して、解答統計から最頻な解答を行う

  4. nearest neighbor 画像+質問文のペアの圧縮表現に大してK近傍法(k=4)を行った。 画像:Caffeの中間層fc7(何モデルかよくわからない) 質問文:Skip-Thought vectorによる分散表現

メソッドs

深層学習を用いたモデルを提案する。 出力はSoftmaxだが、頻出解答1000だけしか出力させないようにした。

また、いくつかの構造を試験的に試したようで、それぞれ紹介している。 Image Channel + Question Channnel の構造

スクリーンショット 2020-02-14 17 25 59

Image Channel

  1. I:VGGNetの最終隠れ層4096-dim
  2. norm I:1のL2正則化

Question Channel

  1. Bug-of-words Question(BoW Q) まず質問文頻出1000単語でBoW(参考)を作る。 次に、質問文の、文頭、2語目、3語目の単語についてそれぞれ集計し30-dim BoWを作る。 2つを結合し1030-dim BoWとする。 文頭の語句と解答に強い相関があったから行った、とのこと。

  2. LSTM Q 質問文を隠れ層1層のLSTMから最終メモリセルのstateとhidden stateを結合した1024-dim(各512-dim)のEmbeddingを用いる。なお、各質問の単語はFC-layer+tanhを用いて300-dimにEmbeddingされている。Vocabularyについて、こちらはtrain data内の全ての単語を利用。

  3. deeper LSTM Q 質問文を隠れ層2層のLSTMで2048-dimにEmdedding。2つの隠れ層からそれぞれ最終メモリセルのstateとhidden stateをとって512x2x2=2048-dim。さらにその後、FC-Layer+tanhで2048->1024に圧縮。WordEmbeddingは2と同様

Multi-Layer Perceptron(MLP)

ImageとQuestionをどのように合流させるか。

  1. BoW Q + I 単純に、BoWQとIを結合した

  2. LSTM Q+I and deeper LSTM Q+norm I Image側について、LSTMと次元が合うようにFC-Layer+tanhで1024-dimに圧縮。 その後、要素単位で積をとった。(ベクトルのアダマール積か)