E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

e4exp commented 3 years ago

https://arxiv.org/abs/2106.01804
2021

大規模な画像とテキストのペアを対象とした視覚言語の事前学習（VLP）は、クロスモーダルなダウンストリーム・タスクにおいて大きな成功を収めています。既存の事前学習手法の多くは、2段階の学習手順を採用しています。まず、事前学習した物体検出器を用いて領域ベースの視覚的特徴を抽出し、次に画像表現とテキスト埋め込みを連結してTransformerの入力として学習します。しかし、これらの方法は、汎用的なクロスモーダル理解のために、特定のオブジェクト検出器のタスク固有の視覚表現を使用するという問題や、2段階のパイプラインの計算効率の悪さに直面している。本論文では、V+L理解と生成の両方に対応した初のエンドツーエンドの視覚言語事前学習モデル、すなわちE2E-VLPを提案する。ここでは、視覚表現と、画像とテキストの間の意味的アライメントを共同で学習するための統一的なTransformerフレームワークを構築する。 E2E-VLPでは、視覚的な学習を強化するために、Transformerのエンコーダーとデコーダーを統合したアーキテクチャを用いて、物体検出と画像キャプションのタスクを事前学習に組み込んでいます。この新しいVLPパラダイムの有効性を実証するために、確立された視覚言語の下流タスクで広範な実験を行った。

e4exp commented 3 years ago

1 はじめに

自己教師付き事前学習は、広範な自然言語理解（Devlinら、2018年、Liuら、2019年、Wangら、2019年、Lanら、2019年）および生成タスク（Songら、2019年、Lewisら、2019年、Biら、2020年）において大きな成功を収めてきた。最近の研究（Li et al., 2019; Lu et al., 2019; Chen et al., 2019; Tan and Bansal, 2019; Li et al., 2020b; Yu et al., 2020）では、視覚・言語タスクの自己教師付き事前学習も進展しており、膨大な画像とテキストのペアから一般的なクロスモーダル表現を学習し、タスク固有のデータ上で視覚・言語事前学習（VLP）モデルを微調整することで、様々な下流のV+Lタスクで最先端の結果を達成しています。既存の主流なVLPモデルの多くは、まず事前に学習された物体検出モデルを用いて意味的な視覚特徴を抽出し、次に派生した画像の物体中心の表現とテキストの埋め込みをTransformer（Vaswani et al. 大規模な画像とテキストのペアがもたらす優れた性能にもかかわらず、2段階のソリューションは以下のような弱点があります。 1) 第1段階のオブジェクト検出モデルは、Visual Genome dataset (Krishna et al., 2017) などの特定の視覚データセットで訓練されており、第2段階では、より汎用的なクロスモーダル理解に向けて視覚表現が最適化されていない。オブジェクト検出モデルが特定の重要な情報を認識できなかった場合に、誤差伝播の問題に悩まされる可能性がある。 2）物体検出モデルを用いて領域特徴を抽出することは非常に時間がかかるため、最先端のモデルの多くは、キャッシュされた視覚特徴を用いて直接学習・評価されています。この方法は、モデル設計に不必要な制約を与えるだけでなく、予測段階でのランタイム推論の非効率性に直面します。

最近では、(Jiang et al., 2020)のようないくつかの研究が、クロスモーダル理解のためにグリッド特徴を再検討し始めており、グリッド特徴は、モデル設計とトレーニングプロセスをはるかに単純化する一方で、驚くほどうまく機能することがわかった。先駆的な研究であるPixel-BERT（Huang et al.、2020）は、ピクセルから直接エンド・ツー・エンドでグリッド特徴を使って事前学習することを模索しています。これは、V+Lの事前学習に重要であることがわかっている、細かい視覚的な事前学習タスクをすべて取り除くものである。 (Zhang et al., 2021)も、物体検出モデルによって提供される視覚的特徴が、VLPモデルにおいて著しく重要であることを示している。

この限界に対処するために、我々はピクセルレベルの視覚言語の事前訓練のための新しいエンド・ツー・エンドのパラダイム、すなわちE2E-VLPを提案し、細かい視覚学習で強化する。 E2E-VLPは、事前学習の際に、画像のピクセルから直接、視覚領域の特徴と、統一されたTransformerエンコーダ・デコーダ・アーキテクチャによるクロスモーダル表現を共同で学習します。 E2E-VLPでは、マスク言語モデリングやイメージ・テキスト・マッチングといった典型的な事前学習タスクに加えて、視覚言語の事前学習を細かい視覚的意味学習で強化しています。具体的には、2つのエンド・ツー・エンドの事前学習タスクがさらに組み込まれています。

1) 物体検出：DETR (Carion et al., 2020) にヒントを得て、物体検出を直接的なセット予測問題として捉えます。クロスモーダル・トランスフォーマー・エンコーダーとイメージ・エンコーダーは、ピクセルからのクロスモーダル・データを融合するために共同で学習され、デコーダーは、予測されたオブジェクトとグランドトゥルース・オブジェクトとの間の二分法マッチングを介して、きめ細かい視覚情報を取り込むために使用されます。

2）画像テキストの生成：画像内のセマンティクスをよりよく理解するために、ペアテキストも画像特徴の学習に使用します。画像を表現するためにエンコーダネットワークを使用し、キャプションテキストを生成するために左から右へのデコーダを使用します。データの確率を最大化するために、標準的な自己回帰型言語モデルの目的を使用しています。

これらの2つのタスクは、高品質な視覚表現を学習するのに役立ちます(Zhang et al., 2021; Desai and Johnson, 2020)。検出タスクはオブジェクトレベルの視覚的セマンティクスを学習することができ、画像キャプションタスクはテキストに沿った視覚的セマンティクスを捉えることができる。これらの2種類の視覚的セマンティクスは、VLPのクロスモーダルフュージョンに大きく影響します。 E2E-VLPは、エンコーダモジュールによる視覚言語理解タスクと、エンコーダ・デコーダモジュールによる視覚言語生成タスクに柔軟に適用することができます。

E2E-VLPを、視覚的質問応答、自然言語による視覚的推論、クロスモーダル検索、画像キャプション作成など、さまざまな代表的な視覚言語タスクで評価した。新しいエンド・ツー・エンドの事前学習パラダイムにより、様々なV+Lタスクにおいて驚くほど良好な性能を得ることができ、新しい1ステージのソリューションによりオンライン推論時間を大幅に短縮することができた。

本論文では、以下のような主要な貢献をしています。

我々は、V+Lの理解と生成の両方に対応する初のエンドツーエンドの視覚言語事前学習モデル、すなわちE2E-VLPを提案する
E2E-VLPは、エンコーダ・デコーダのアーキテクチャにきめ細かな視覚の事前学習を組み込んだ初めてのモデルであり、高度な視覚と言語の事前学習タスクを設計するための新たな道を開きます。
物体検出や画像キャプションを視覚的に学習することで、クロスモーダルな特徴融合を強化し、視覚と言語の事前学習に有効であることが実証されています。

e4exp commented 3 years ago

6 結論

本稿では，ピクセルレベルの視覚言語の事前学習において，視覚表現と，画像とテキストの間の意味的な整合性を共同で学習するための，エンド・ツー・エンドの新しいパラダイムを提案する．従来の手法では、2段階のパイプラインで領域の特徴を使用していたが、本稿では、より柔軟で効率的な画像グリッドの特徴を視覚言語の事前学習に使用することを提案する。さらに、視覚学習を強化するために、Transformerのエンコーダーとデコーダーを統合したアーキテクチャを用いて、物体検出と画像キャプションのタスクを事前学習に組み込む。確立された視覚言語の下流タスクでの実験により、E2E-VLPモデルの有効性と効率性が実証されました。本研究が、エンドツーエンドの視覚言語の事前学習に新たな視点と指針を提供できる可能性があることを期待しています。将来的には、画像とテキストの融合を最下層から行うためのより深い相互作用の方法を探り、さらに性能を向上させるために、より高度な視覚と言語の事前学習タスクを組み込む予定である。

e4exp commented 3 years ago

e4exp / paper_manager_abstract

E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning #515

1 はじめに

6 結論