一言でいうと

こちらからもってきた論文 VQAのモデルについて、質問文からの言語情報が、画像情報よりも著しく重視されてしまう問題への対策手法提案。画像情報の果たす役割を向上させる。同じ質問に対し、解答が異なるような類似画像を用意したデータセットの作成。モデルの学習において、解答の判断根拠を、入力画像の類似画像から、判断根拠となる部分が異なる画像を選択させる学習方法を提案した。

記号 Q=question I=Image A=anser

論文リンク

https://arxiv.org/abs/1612.00837

著者/所属機関

Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh

投稿日付(yyyy/MM/dd)

2016/12/02

概要

VQAにおいて、モデルの判断根拠が質問文に偏っていることを改善したい。(おそらく、colorで聞かれると色であてっずっぽうに答える、のような質問文しか気にしないような回答が多かった、ということだと思われる)

もとのデータセットのQ&Iペアに、さらにI'を補完したデータセットを作成した。すべての質問に(Q,I,I')の組を構成。Qに対するI,I'のA,A'は異なるようになっている。

この"balanced dataset"によって既存の複数のSOTAモデルを図り直した所、パフォーマンスが悪くなった。このことから、モデルが言語情報の活用を優先して学んでいることを経験的に示した。

また、新たに、判断根拠をカウンター画像として選択させる学習法を考案

新規性・差分

手法

提案手法としては新規データセットの作成とカウンター画像を答えさせる学習法(Counter-example Explanation)の提案の２つがある。

wisteria2gp / DataScience_survey

Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering (CVPR 2017) #4

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

データセット

Counter-example Explanation

結果

コメント