VinVL: Revisiting Visual Representations in Vision-Language Models

e4exp commented 3 years ago

https://arxiv.org/abs/2101.00529
CVPR 2021

本論文では、視覚言語（VL）タスクのための視覚表現の改善に関する詳細な研究を行い、画像のオブジェクト中心の表現を提供するために、改良されたオブジェクト検出モデルを開発しました。このモデルは、最も広く使われているモデルである ˶‾᷄ -̫ ‾᷅˵ "Bottom-up and top-down" と比較して、より大きく、VLタスクのために設計されており、複数のパブリックアノテーションされたオブジェクト検出データセットを組み合わせた、より大きなトレーニングコーパスで事前に学習されています。そのため、より多くの視覚的オブジェクトや概念の表現を生成することができます。これまでのVL研究では、主に視覚言語融合モデルの改良に焦点が当てられており、物体検出モデルの改良は放置されていましたが、我々は視覚的特徴がVLモデルにおいて重要であることを示します。実験では、新しい物体検出モデルによって生成された視覚的特徴をTransformerベースのVL融合モデル「oscar」に入力し、改良されたアプローチを用いてVLモデルを事前に学習させ、幅広いVLタスクで微調整を行いました。その結果、新しい視覚的特徴によって、すべてのVLタスクで性能が大幅に向上し、7つのパブリックベンチマークで最先端の結果を得ることができました。今後は、新しい物体検出モデルを一般に公開する予定です。

e4exp commented 3 years ago

6 結論

本論文では、VLタスクのためのODモデルを事前学習するための新しいレシピを紹介した。最も広く使われているボトムアップおよびトップダウンモデル[2]と比較して、新しいモデルはより大きく、VLタスクのために設計されており、より大きなテキスト-画像コーパスで事前学習されているため、VLタスクに重要な視覚的オブジェクトやコンセプトの豊富なコレクションの視覚的特徴を生成することができます。このモデルは、大規模なテキストと画像のペアコーパスで事前に学習され、7つのVLタスクで微調整されたVL融合モデルに視覚的特徴を与えることで、包括的な実証研究によって検証されました。その結果、新しいODモデルは、複数のパブリックベンチマークにおいて、7つのVLタスクすべてでSoTAの結果を大幅に向上させることができました。この結果は、オブジェクトカテゴリの多様性、視覚的属性の学習、学習データの規模、モデルのサイズ、モデルのアーキテクチャに関する設計上の選択に起因することがわかりました。

e4exp / paper_manager_abstract

VinVL: Revisiting Visual Representations in Vision-Language Models #342