一言でいうと

タスクTextVQAの提案既存のVQAに対し、画像中のTextの読み取りが要求されるように特化している。 EX.計量カップの写真に対して「最大のメモリは何オンス？」→「16」既存のSOTAモデルだとわりと見当違いな質問をするとのこと。

論文リンク

Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach FaceBook AI , Georgia Tech

2018/04/18

スクリーンショット 2020-03-06 22 58 51