OnizukaLab / ConferenceProceedings

NLP 班論文読み会用のリポジトリ
8 stars 1 forks source link

Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions #41

Open NomotoEriko opened 5 years ago

NomotoEriko commented 5 years ago

一言でいうと

VQA(画像をみて質問に答えるタスク)は CNN と RNN を組み合わせた end-to-end なものが主流である.そのようなモデルでは,特に解答が間違えていた場合,なぜそのエラーが生じたのかを分析しにくいという問題がある.本研究では VQA を 説明ステップ解答予測ステップ に分けることで,中間結果を人間が理解しやすいようにして分析しやすくした.

論文リンク

https://aclanthology.info/papers/D18-1164/d18-1164

著者/所属機関

Q. Li, J. Fu, D. Yu, T. Mei, J. Luo University of Science and Technology of China, Microsoft Research, Beijing, China, JD AI Research, Beijing 100105, China, University of Rochester, Rochester, NY

投稿日付(yyyy/MM/dd)

概要

Visual QA は CNN とかを使って結構いい感じに実現している.しかしながらその過程はブラックボックスである.本研究では VQA を説明と推論の2つのステップに分ける.こうすることで,システムが画像からどのような情報を抽出しているのかを確認することができる.また,このような中間結果は予想された回答が間違いだった場合それがなぜ起こったのかを知る手がかりとなる.

新規性・差分

本研究の3つの貢献

手法

2018-12-10 17 52 26

説明ステップ

結果

実際の例

2018-12-10 17 52 43

コメント

見通しのいい綺麗な研究だと思いました。精度はそこそこでも実用上ありがたい特性を持つこっちのほうが使いたいなって思いました。

NomotoEriko commented 5 years ago

https://visualqa.org/vqa_v1_download.html これを見た感じ,データセットは MSCOCO に質問文と解答のデータセットを作成したものっぽいです.MSCOCO なのでキャプションもくっついていそうです. ですが明記されていないのでおそらく質問文と解答のデータセット作成時には説明文は見ていないと思います.