wisteria2gp / DataScience_survey

0 stars 0 forks source link

Towards VQA Models That Can Read #27

Open wisteria2gp opened 4 years ago

wisteria2gp commented 4 years ago

一言でいうと

タスクTextVQAの提案 既存のVQAに対し、画像中のTextの読み取りが要求されるように特化している。 EX.計量カップの写真に対して「最大のメモリは何オンス?」→「16」 既存のSOTAモデルだとわりと見当違いな質問をするとのこと。

論文リンク

https://arxiv.org/abs/1904.08920

著者/所属機関

Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach FaceBook AI , Georgia Tech

投稿日付(yyyy/MM/dd)

2018/04/18

概要

新規性・差分

手法

スクリーンショット 2020-03-06 22 58 51

結果

コメント