Open NomotoEriko opened 5 years ago
VQA(画像をみて質問に答えるタスク)は CNN と RNN を組み合わせた end-to-end なものが主流である.そのようなモデルでは,特に解答が間違えていた場合,なぜそのエラーが生じたのかを分析しにくいという問題がある.本研究では VQA を 説明ステップ と 解答予測ステップ に分けることで,中間結果を人間が理解しやすいようにして分析しやすくした.
https://aclanthology.info/papers/D18-1164/d18-1164
Q. Li, J. Fu, D. Yu, T. Mei, J. Luo University of Science and Technology of China, Microsoft Research, Beijing, China, JD AI Research, Beijing 100105, China, University of Rochester, Rochester, NY
Visual QA は CNN とかを使って結構いい感じに実現している.しかしながらその過程はブラックボックスである.本研究では VQA を説明と推論の2つのステップに分ける.こうすることで,システムが画像からどのような情報を抽出しているのかを確認することができる.また,このような中間結果は予想された回答が間違いだった場合それがなぜ起こったのかを知る手がかりとなる.
本研究の3つの貢献
実際の例
見通しのいい綺麗な研究だと思いました。精度はそこそこでも実用上ありがたい特性を持つこっちのほうが使いたいなって思いました。
https://visualqa.org/vqa_v1_download.html これを見た感じ,データセットは MSCOCO に質問文と解答のデータセットを作成したものっぽいです.MSCOCO なのでキャプションもくっついていそうです. ですが明記されていないのでおそらく質問文と解答のデータセット作成時には説明文は見ていないと思います.
一言でいうと
VQA(画像をみて質問に答えるタスク)は CNN と RNN を組み合わせた end-to-end なものが主流である.そのようなモデルでは,特に解答が間違えていた場合,なぜそのエラーが生じたのかを分析しにくいという問題がある.本研究では VQA を 説明ステップ と 解答予測ステップ に分けることで,中間結果を人間が理解しやすいようにして分析しやすくした.
論文リンク
https://aclanthology.info/papers/D18-1164/d18-1164
著者/所属機関
Q. Li, J. Fu, D. Yu, T. Mei, J. Luo University of Science and Technology of China, Microsoft Research, Beijing, China, JD AI Research, Beijing 100105, China, University of Rochester, Rochester, NY
投稿日付(yyyy/MM/dd)
概要
Visual QA は CNN とかを使って結構いい感じに実現している.しかしながらその過程はブラックボックスである.本研究では VQA を説明と推論の2つのステップに分ける.こうすることで,システムが画像からどのような情報を抽出しているのかを確認することができる.また,このような中間結果は予想された回答が間違いだった場合それがなぜ起こったのかを知る手がかりとなる.
新規性・差分
本研究の3つの貢献
手法
説明ステップ
解答予測ステップ
結果
実際の例
コメント
見通しのいい綺麗な研究だと思いました。精度はそこそこでも実用上ありがたい特性を持つこっちのほうが使いたいなって思いました。