Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions

一言でいうと

VQA（画像をみて質問に答えるタスク）は CNN と RNN を組み合わせた end-to-end なものが主流である．そのようなモデルでは，特に解答が間違えていた場合，なぜそのエラーが生じたのかを分析しにくいという問題がある．本研究では VQA を 説明ステップ と 解答予測ステップ に分けることで，中間結果を人間が理解しやすいようにして分析しやすくした．

論文リンク

https://aclanthology.info/papers/D18-1164/d18-1164

著者/所属機関

Q. Li, J. Fu, D. Yu, T. Mei, J. Luo University of Science and Technology of China, Microsoft Research, Beijing, China, JD AI Research, Beijing 100105, China, University of Rochester, Rochester, NY

投稿日付(yyyy/MM/dd)

概要

Visual QA は CNN とかを使って結構いい感じに実現している．しかしながらその過程はブラックボックスである．本研究では VQA を説明と推論の2つのステップに分ける．こうすることで，システムが画像からどのような情報を抽出しているのかを確認することができる．また，このような中間結果は予想された回答が間違いだった場合それがなぜ起こったのかを知る手がかりとなる．

新規性・差分

本研究の3つの貢献

VQA プロセスを2段階に分けた
説明プロセスをいくつかの尺度で評価し、説明プロセスの品質が VQA の精度と強く相関することを示した
実験から提案手法の強いところと弱点を分析した

手法

説明ステップ

画像から関連語彙を予測
画像からキャプションを生成
解答予測ステップ
質問文と，説明ステップの結果を受け取り解答を予測．先行手法と同様に解答群からの分類問題として解く．

結果

関連語彙やキャプションが質問文と関連している場合は VQA の解答も正解しやすい．
他の手法と比べると、だいたい勝ってた．ただ，MCB っていうめっっっっちゃ重いモデルには勝てなかった

実際の例

見通しのいい綺麗な研究だと思いました。精度はそこそこでも実用上ありがたい特性を持つこっちのほうが使いたいなって思いました。

OnizukaLab / ConferenceProceedings