Open e4exp opened 3 years ago
Transformerや自己教師付き学習の成功を受けて、最近では、クロスモーダル学習、特に視覚言語事前学習(VLPT)に関する研究が盛んに行われています[7, 22, 23, 27, 36, 39, 50]。 VLPTモデルは、アクセスが容易な大規模な画像とテキストのペアを用いて、より良いクロスモーダル表現を学習する。 これらのモデルは,視覚的質問応答(VQA)[3],画像-テキスト検索[25],視覚的推論のための自然言語(NLVR)[37]など,多くの視覚言語タスクで最先端の結果を出している. 視覚表現は、VLPTモデルにおいて重要な役割を果たします。
最近のVLPTモデルの成功は,Visual Genomeデータセットで事前に学習されたオブジェクト検出器によって抽出された,領域ベースの画像特徴の利用に伴うものである[2]. しかし,リージョンベースの画像特徴を視覚言語理解に直接利用するには,3つの課題がある。 第一に、リージョンは境界ボックス内のオブジェクトに焦点を当て、関係性の理解や推論に重要なボックス外の文脈情報を無視する。
例えば、図1の画像では、"男"、"女"、"ボート "の3つのオブジェクトを簡単に検出することができます。 しかし、これらのボックスに含まれる文脈情報がなければ、モデルはこの関係を「people boating」と誤解し、テキスト検索やVQAでは不正解となってしまいます。 第二に、画像の視覚的理解は、あらかじめ定義された領域のカテゴリーに限定されてしまう。 第三に、ほとんどの領域ベースの画像特徴は検出モデルによって抽出されるが、検出モデルは低品質、ノイズ、オーバーサンプリング[2]に悩まされ、大規模な箱のアノテーションデータに依存することになる。
いくつかの作品は、検出モデル[40, 48]を弱教師付きで学習しようとしているが、その性能は要求をはるかに下回っている。 最近では,グリッドベースの畳み込み特徴量が視覚表現の学習にも有効であるとする研究がある[9, 16, 17, 33]. その中で、Jiangらは、グリッド特徴がVQAのリージョン特徴と同等の効果があることを示している[17]。 SariyildizらやDesaiらは、画像-テキスト・データを用いて、認識タスク(例:画像分類)のためのビジュアル・バックボーンを学習している[9, 33]。 これらのモデルは、特定の視覚-言語タスク[17]または視覚タスク[9, 33]のために設計されている。 本論文では,VLPTに着目し,領域特徴に依存しないエンドツーエンドのVLPTモデルを提案する.
領域ベースの画像特徴の限界を克服し、クロスモーダルな理解のために画像とテキストのペアをよりよく利用するために、我々は画像とテキストのペアから画像の埋め込み、言語の埋め込み、およびそれらの意味的な整合性を直接学習するエンドツーエンドの視覚言語事前学習フレームワークであるSOHOを提案する。 既存のVLPTと比較して、SOHOは複雑な視覚的バックボーンを必要としないシンプルなパイプラインを採用しており、VLPTタスクのための設計努力を解放しています。 手間のかかるカテゴリやボックスを必要とせず、SOHOはより広範な画像-テキストデータによる視覚的表現を直接最適化することで、視覚的セマンティクスを豊かにすることができます。
視覚と言語のエンド・ツー・エンドの学習では、2つのモダリティの異なる表現による課題があります。 ピクセルレベルの視覚表現は、言語の埋め込みに比べてはるかに多様で高密度です。 また、ピクセルレベルの言語に対する明示的な監視がないため、アライメント学習には困難が伴う。 これらの問題を解決するために、我々は視覚領域の意味をより包括的かつコンパクトに表現するビジュアル辞書(VD)を導入する。 ビジュアル辞書を学習するために、類似したビジュアルセマンティクスを持つビジュアルピクセルをグループ化する移動平均化エンコーダを設計する。 VDは、学習可能なCNNバックボーンを通じて、事前学習中の視覚言語データから直接、動的に更新することができます。 また、一般的に使用されているマスクド・ランゲージ・モデリング(MLM)とイメージ・テキスト・マッチング(ITM)の他に、学習した視覚辞書に基づいた新しいマスクド・ビジョン・モデリング(MVM)を提案する。
我々の貢献は以下のようにまとめられる。
(i) 画像とテキストのペアから直接クロスモーダルな表現を学習する初のエンドツーエンドVLPTモデルの一つであるSOHOを提案する。このモデルでは、バウンディングボックスを抽出する必要がないため、推論を10倍以上高速化することができます。 (ii) 視覚的特徴と言語トークンの整合性を高めるために、画像内の類似したセマンティクスを視覚的に抽象化した新しい動的更新視覚的辞書を提案する。 (iii) 確立された4つの下流タスクで広範囲な実験を行う。その結果、SOHOは、MSCOCO text retrieval 5k test splitで2.0%のR@1スコア、NLVR2 test-P splitで1.5%の精度、SNLI-VE test splitで6.7%の精度、VQA2.0 test-std splitで0.56%のVQAスコアを獲得し、SOTAの性能を向上させることができました。
今後は、モデルとコードの両方を公開し、研究コミュニティの便宜を図る予定です1。
我々が提案する視覚言語の事前学習フレームワークSOHOの全体的なアーキテクチャを図2に示します。 SOHOはエンド・ツー・エンドのフレームワークで、学習可能なCNNベースのビジュアルエンコーダー、ビジュアルディクショナリー(VD)エンベッディングモジュール、マルチレイヤートランスフォーマーで構成されています。 ビジュアルエンコーダは、画像を入力として受け取り、視覚的特徴を生成します。 VDエンベッディングモジュールは、多様な視覚的意味情報を、提案された視覚的辞書を用いて視覚的トークンに集約するために設計されています。 Transformerは、視覚モダリティと言語モダリティからの特徴を融合し、タスク固有の出力を生成するために採用されています。
SOHOは、
エンド・ツー・エンドで事前学習することができます。
また、SOHOは、画像テキスト検索、VQA、NLVR、Visual Entailmentを含むいくつかのダウンストリーム・タスクに簡単に適応することができます。
最近の視覚言語研究では、Bottom-up and Top-Down attention [2]に従って、Visual Genome [20]データセットで事前に訓練されたFaster R-CNN [32]検出器によって、領域レベルの視覚特徴を抽出しています。 このようにして抽出された領域ベースの特徴の表現能力は、あらかじめ定義されたオブジェクトと属性のカテゴリ(例:1,600のオブジェクトと400の属性)によって制限されます。 また、領域外の文脈情報は、VL理解には重要ですが、事前に定義されたカテゴリから外れているため、無視されてしまいます。 画像全体を領域とみなし、その特徴を大域的な表現として抽出することは改善策であるが、このような大域的な領域は学習段階では見られないため、この検出器は特徴の品質を保証することができない。 しかし、最近のVLPTモデルでは、事前に抽出されたリージョンレベルの視覚的特徴を採用しています。 これは、VLタスクにおいて物体検出器をエンド・ツー・エンドで微調整するのは複雑だからです。 さらに、抽出されたリージョンレベルの視覚的特徴は、言語ドメインとの意味的なギャップがありますが、既存の研究では、完全に接続された1つまたはいくつかの層だけで、そのようなドメインギャップを埋めようとしています。
全ての視覚情報を保持するために、我々は学習可能なCNN視覚エンコーダーを使用することを提案する。 このエンコーダーは、画像全体を入力とし、領域レベルの特徴ではなく、画像レベルの視覚特徴を生成する。 境界ボックスの制限を受けずに、ビジュアル・エンコーダーはエンド・ツー・エンドで学習され、学習前の損失や下流のタスク固有の損失から更新され、クロスモーダル学習をさらに最適化することができる。 入力画像Iが与えられると、その特徴量Vは次のようにして得られる。
ここで,E(-, θ)はパラメータθを持つ視覚特徴エンコーダであり,lは埋め込まれた特徴ベクトルの数,cは埋め込まれた次元を表す. 本論文では,エンコーダEのアーキテクチャとして,ImageNet [8]で前学習したResNet [15]に,1×1の畳み込み層と2×2の最大プーリング層を加えたものを採用した。
視覚的特徴エンコーダによって抽出された視覚的特徴Vは、言語の単語トークンよりも多様で高密度であるため、クロスモーダルな理解の学習に困難をもたらす。 そこで、視覚的特徴をトークン化するために、類似した視覚的意味を同じ画像特徴に集約する視覚的辞書(VD)を提案する。
我々は、視覚的辞書(VD)を、c-dimを持つk個の埋め込みベクトルを含む行列D∈Rk×cと定義する。j番目の埋め込みベクトルをdjとする.ビジュアル特徴viに対して,Dにおける最近傍を検索してマッピングインデックスを計算する.
我々は、ビジュアルディクショナリーの埋め込みを、viをDに次のようにマッピングするマッピング関数fと定義する。
であり,視覚的特徴を表現するために最も近い埋め込みベクトルを使用する. また,f -1 (j)を逆マッピング関数とし,インデックスjを視覚的特徴のグループにマッピングする. 逆マッピンググループの大きさを表すために|f -1 (j)|を使用し、符号化特徴を表すためにf(V)を使用します。
ビジュアル辞書Dはランダムに初期化され、さらに移動平均演算によって1つのミニバッチで更新されますが、これを次のように表します。
ここで、ˆdjはdjの更新された埋め込みベクトルを示し、γは[0,1]の値域を持つ運動量係数である。 なお、式4は、|f -1 (j)|neq =0のときにのみ適用される。
argmin演算は微分できないので、勾配逆伝播は視覚的な辞書によって停止してしまう。 視覚特徴エンコーダを学習可能にするために、[41]に従い、f(vi)を次のように更新する。
ここで,sg[-]は停止勾配演算子である. ビジュアルディクショナリーは、特徴の類似性に基づいて視覚的特徴マップのオンラインクラスタリングを行い、各特徴ベクトルをそのクラスタセンターで表します。 同様の意味を共有する特徴ベクトルは同じクラスタに集約され、クラスタ化されたインデックスは仮想的な視覚的意味ラベルとみなすことができる。 クラスタリングは視覚言語学習タスクの影響を受ける可能性があるため、各埋め込みベクトルの学習されたセマンティクスは、クロスモーダルな理解と連携に適しています。 視覚辞書はコールドスタート問題に直面しており、ランダムに初期化された埋め込みベクトルから視覚特徴マップに直接勾配をコピーすると、モデルの最適化方向が正しくない(すなわち、モード崩壊)ことになる。 そこで、最初の10回の学習エポックにおいて、視覚特徴エンコーダーのResNetのパラメータをフリーズさせます。
多層構造のTransformerを用いて、視覚と言語の特徴を融合したクロスモーダルな表現を学習します。 視覚や言語に関連するタスクに対応する普遍的な表現を学習するために、大規模なデータセットを用いてモデルを事前学習する自己教師法を適用しています。 既存の研究[7, 22, 27, 36, 39, 50]に従い、Masked Language Modeling (MLM)とImage-Text Matching (ITM)の事前学習タスクを採用する。 さらに、ビジュアルディクショナリによって生成された仮想的な視覚的意味ラベルに基づいて、新しいMasked Visual Modeling (MVM) 事前学習タスクを提案します。
視覚表現には、他の研究[6, 11, 30]に倣い、正弦関数によって計算された2次元位置埋め込みを利用して、視覚的トークンの空間情報を符号化する。 入力文に対しては,BERT [10] に従ってトークン化を行い,トークンを埋め込みベクトルWで表現する. ワードエンベッディングとVDエンベッディングは、出力の次元cを共有している。 VDエンベッディングと単語エンベッディングのベクトルを連結して、クロスモーダル学習のための入力シーケンスを形成する。 他のVLPTモデルと同様に、分類位置とテキストの終わりを示すために、2つの特別なトークンである[CLS]と[SEP]を入力シーケンスに追加します。 多層構造のTransformerは、結合された視覚言語入力を受け取り、出席した特徴を出力するために採用されます。
言語トークンと視覚コンテンツの間のマッピングを構築するモデルを奨励するために、[7]に従い、Masked Language Modeling (MLM)を採用しました。 MLMの目的は、他の単語トークンW\iと全ての画像特徴f(V)に基づいて、負の対数尤度を最小化することで、マスクされた単語トークンを予測することである。 学習目標は次のように定式化できる。
ここで,D は,以下では,トレーニングデータセット全体を示す. BERT[10]で用いられたのと同じマスキング戦略を採用しています。
我々は、MLMの対称性である視覚的辞書によるMasked Visual Modeling (MVM)を提案します。 画像の特徴をTransformerに入力する前に、ランダムにマスクします。 MVMの学習目標は次のように示される。
MVMの目的は、負の対数尤度を最小にすることで、周囲の画像特徴f(V)\jと全ての言語トークンWに基づいて、マスクされた画像特徴を予測することである。 MVMは、言語だけでなく、文脈上の視覚情報から視覚的知識を推論することをモデルに促すことができる。 画像特徴viがマスクされている場合、VDにおけるそのマッピングインデックスhiがそのラベルとみなされる。 視覚特徴マップでは、隣接する特徴が似たような値を持ち、そのために同じマッピングインデックスを共有することがあります。 これにより、モデルは周囲の特徴からラベルを直接予測値としてコピーしてしまうという怠慢な行動をとってしまう。 これを防ぐために,マスキングの段階では,まず既存のラベルインデックスjをランダムに選択し,f -1 (j)のすべての視覚的埋め込みベクトルを特別な[MASK]トークン埋め込みベクトルに置き換える.
クロスモーダルマッチングを向上させるために,過去の研究[7]と同様に,事前トレーニングにImage-Text Matching (ITM)タスクを採用する. CLS]トークンの結合埋め込み特徴量にバイナリ分類器φ(-)を適用し,入力画像とテキストが一致するかどうかを予測する. ITMタスクは,以下の損失関数によって実行される.
ここで、y∈{0, 1}は、画像とテキストが一致しているか(y=1)、していないか(y=0)を示します。 視覚特徴エンコーダー、VDベースの画像埋め込みモジュール、クロスモーダル・トランスフォーマーは、エンド・ツー・エンドの共同学習が可能です。 3つの事前学習目的に均等な損失の重みを割り当てることで、SOHOの完全な事前学習目的は次のようになります。
VLの事前学習を行うための大規模データセットがいくつか提案されている. UNITER[7]での典型的な設定によると、これらのデータセットは2つのクラスに分類されます。 "in-domainとout-domainです。 本研究では、ほとんどのVL事前学習タスクが「in-domain」データセットに基づいて構築されていることから、「in-domain」を事前学習データセットとして使用する[7, 23, 39]。 事前学習用データセットはMSCO[25]とVG[20]を用いて構築する。 データの漏洩を防ぐため,学習段階ではMSCOCOデータセットのtrainとrestvalの分割,およびVGデータセットのtrainとvalの分割のみを使用する. 事前学習用データセットの詳細な統計情報は,表1に示す. ほとんどのVLPT作品で使用されている事前学習用データセットの詳細な比較は,補足資料に掲載しています。
言語処理については、BERT に従い、WordPiece トークン化器[43]を使用して、各テキストを言語トークンに分割します。 視覚処理については、ほとんどの先行研究が入力解像度として 600 × 1000 を使用する特徴抽出器を採用しているため、公正な比較を行うために、入力画像の短辺を 600 にリサイズし、長辺を 1000 以下に制限する設定も採用しています。 ビジュアルバックボーンとTransformerアーキテクチャのパラメータの初期化には、一般に公開されているImageNet [8]とBERT [10]に基づいて事前に学習されたモデルを使用しています。 具体的には、他の研究と公平に比較するために、広く使用されているResNet-101バックボーンと12層のTransformerを採用する一方で、実験コストを削減するために、アブレーション研究では軽量のResNet-18バックボーンと3層のTransformerを採用しています。 本稿では、簡略化のため、X層ResNetアーキテクチャをRXで表すことにします(例:R101はResNet101を表す)。
ビジュアルバックボーンとTransformerは異なる種類のオプティマイザーを好むため[49]、Zhangら[49]の提案に従い、ビジュアルバックボーンとTransformerにそれぞれSGDとAdamWオプティマイザーを使用します。 ビジュアルバックボーンには学習率1e-2、ウェイトディケイ5e-4のSGDを使用し、Transformerには学習率1e-4、ウェイトディケイ1e-2のAdamWを適用します。 32台のNVIDIA Tesla V100 GPUを用いて、4,096個の画像-テキストペアのバッチサイズでモデルの事前学習を行いました。 学習プロセスは、収束するまで40エポックを要し、25エポック目と35エポック目には、経験的に学習率を10倍に減衰させた。 メモリコストを削減し,学習処理を高速化するために,混合精度の学習を採用した. 事前学習では、各バッチにおいて、1つの画像と4つのテキストがペアになっており、2つの正のペアと2つの負のペアが含まれています。 肯定的な画像とテキストのペアに対してのみMLMとMVMを適用する。
画像テキスト検索タスクには、画像からテキストへの検索(TR)とテキストから画像への検索(IR)という2つのサブタスクがあり、Flickr30K[45]およびMSCOCO[25]のデータセットで実施された。 VQA、NLVR、VEのタスクは、それぞれVQA 2.0 [14]、NLVR2 [37]、SNLI-VE [44]のデータセットで実施されています。 表1は、我々のすべてのダウンストリーム・タスクの統計をまとめたものです。
我々のアプローチを、いくつかのタスク固有の手法および事前学習モデルと比較した。 ほとんどの事前学習モデルは、クロスモーダルな表現を学習するために、BERTのような目的[10]でTransformerのようなアーキテクチャ[42]を採用している[7, 22, 23, 27, 36, 39, 50]。 下流のタスクでは、視覚表現にVDモジュールの入力特徴を使用する方が、VD埋め込みを直接適用するよりも優れていることがわかっています。 本実験では前者の設定を採用した。 これにより、VDは非常に大規模なセマンティクスを学習した視覚表現に適している一方で、密な特徴は比較的小さなデータセットでより詳細な情報を提供することがわかる。
画像-テキスト検索では、候補となる画像から最も関連性の高いキャプションを検索したり、その逆を行ったりするモデルが必要となります。 これは、視覚言語学習の分野で最も代表的なタスクの一つであり、幅広い応用が可能です(例:画像検索)。 画像-テキスト検索には,画像からテキストへの検索(TR)とテキストから画像への検索(IR)の2つのサブタスクがあります. 学習の際には、多くの画像テキスト検索モデルと同様に、ミニバッチの中に整列したペアと整列していないペアを構築する。 グランドトゥルースのアノテーションからt個の整列した画像キャプションペアをランダムにサンプリングしてミニバッチを形成する。 それ以外のt - 1個のキャプションは、各画像の整列していないキャプションとして使用されます。 整列された画像と整列されていない画像の両方に対して正しいラベルを予測するようにモデルを促すために、検索タスクを2つの分類問題として考えます。
我々の実装では、Transformersの[CLS]トークンの結合埋め込み表現を用いて、画像とキャプションのペアがアライメントされているかどうかを予測します。 画像-テキスト検索タスクの目的は、事前学習段階での画像-テキストマッチング(ITM)タスクと一致しているため、事前学習されたパラメータを引き継いで微調整することが可能である。 ここでは、AdamWオプティマイザを採用し、学習率は1e-4、重みの減衰は1e-2とした。 ミニバッチサイズtは24に設定されています。 収束するまで20エポックの学習を行い、3rd, 5th, 9th, 13thのエポックで経験的に学習率を半分にします。 MSCOCO[25]とFlickr30k[31]で実験を行い,その結果をそれぞれ表2と表3に示す. UNITERはアウトオブドメインのデータセットを追加で使用しており,彼らが報告しているようにインドメインのデータセットを単に使用するよりも良い結果が得られることが期待されます[7]. Unicoder-VL [22]は,単にアウトオブドメインのデータセットを採用しており,これも我々のSOHOと直接比較することはできない。 それにもかかわらず、SOHOはMSCOCOとFlickr30kの両方において、ほとんどの測定基準で最新のVLPT作品よりも優れています。 この性能向上は、SOHOが我々のエンドツーエンドの事前学習アーキテクチャによってより良い画像-テキスト埋め込みを学習し、提案されたビジュアル辞書によって包括的かつコンパクトな視覚的意味の抽象化を利用していることを示している。
視覚的質問応答(VQA)では、画像と質問を入力として受け取り、答えを出力するモデルが必要です。 このタスクでは、機械が人間のように行動し、視覚と言語にまたがって推論することが必要であり、これは知的AIに近づいていると言えます。 VQAは、[CLS]トークンから多層の知覚を学習することで、分類問題としてモデル化する。 我々は[19]に従い、3,192ウェイの分類問題として扱い、バイナリ・クロス・エントロピー損失によってモデルを最適化する。 収束するまで、バッチサイズを256にして18回のエポックで微調整を行います。 最適化器の設定は、事前学習の段階と同じです。 初期の学習率も事前学習と同様に設定し、12回目と16回目のエポックで経験的に学習率を10ずつ減少させました。 結果は表4に示すとおりである。 我々のSOHOと最も直接的に比較できるベースラインは、我々のSOHOと同じバックボーンと事前学習データセットを採用しているLXMERT[39]である。 SOHOは、test-devおよびtest-stdの分割において、LXMERTに対してそれぞれ0.83%および0.93%の絶対的な改善を得た。 SOHOは、UNITERが事前学習段階でアウトドメインのデータセットを追加で使用するという劣悪な実験設定の下でも、UNITER[7]を上回ったことは注目に値します。 VQAにおけるSOHOの有望な結果は、我々のエンド・ツー・エンドの事前トレーニング・アプローチが、ビジュアル・コンテンツに対するインテリジェントな質問応答を可能にすることを示しています。
自然言語による視覚的推論(NLVR)では、テキストが与えられた画像のペアに関連している かどうかを予測するモデルが必要です。 VQAと比較して、NLVRでは、関係、比較、および量に関する構成的な視覚的推論という課題に取り組んでいます。 我々は、NLVR2データセット[37]でこのタスクを実施しました。 我々の実装では、LXMERT[39]とUNITER[7]に従って、2組の画像-テキストをTransformerに入力し、[CLS]トークンから2つの埋め込みベクトルを取得します。 そして、クロスエントロピー損失により、埋め込みベクトルの連結を「真」または「偽」に分類する分類器を学習します。 オプティマイザー、エポック数、学習率の設定は、VQAの設定と同じである。 NLVR2の入力画像数はVQAの2倍であるため、NLVR2のバッチサイズはVQAの半分となります。 公正な比較のため、主にLXMERT[39]およびUNITER[7]が同じ設定で提供したSOTAの結果と比較します。 表5に示す結果から、SOHOがUNITERに対してdevとtest-Pの分割でそれぞれ0.52%と1.52%の絶対的な利益を得ていることがわかります。 この結果は、SOHOが構成的な視覚的推論のタスクに適用する際にも利点があることを検証している。
Visual Entailment(VE)は、画像が意味的にテキストと関連しているかどうかを予測する、きめ細かい視覚的推論タスクです。 視覚的な知性を追求するために、VEタスクにおける画像とテキストのペアの関係は、VQAやNLVRよりも細かく、真(包含)、偽(矛盾)、中立のいずれかになります。 SNLI-VEデータセット[44]は、VEタスクのために提案されており、Stanford Natural Language Inference(SNLI)[5]とFlickr30K[31]データセットをベースに構築されている。 UNITER [7]に従い、VEタスクを3方向の分類問題として扱い、Transformerの出力から[CLS]トークンの表現上の完全連結層によって各クラスのスコアを予測する。 収束するまで、バッチサイズ128で6回のエポックを行い、モデルを微調整します。 学習率は1e-4として初期化され、経験的に4エポック後に1e-5に減衰します。 SOHOをVLPTのUNITER[7]およびタスクに特化した手法EVE-Image[44]と比較する。 表6に示すように,SOHOはvalとtestの分割において,それぞれ85.00%と84.95%の精度を達成した. この結果は、UNITER[7]で提供されたSOTAの結果を大幅に上回り、valとtestの分割でそれぞれ6.41%と6.67%の絶対的な精度向上が得られました。 この結果は、CNNバックボーンを改良するためのエンド・ツー・エンドのフレームワークとクロスモーダルなTransformerが、視覚と言語のアライメントを徹底的に促進するという利点を示しています。
下流のすべてのタスクにおけるビジュアルディクショナリ (VD)の有効性を検証するために、アブレーション研究を行いま した。 まず、VDを使用しないベースラインモデルを構築し、次にVDをベースラインに組み込み、さらに埋め込みベクトルサイズ(VDサイズ)kの影響を評価しました。 一般的に、ほとんどのタスクにおいて、1024から8192までの4つのサイズのうち、2048または4096のVDサイズが最良の結果を達成していることがわかります。 これは、VDが類似した視覚的セマンティクスを同一の画像特徴に集約するように設計されていることから、妥当な結果と言えます。 このような設計では、大きなサイズのVDは、より細かい完全なビジュアルセマンティクスのグループ化を学習することができ、予想通りVLアライメントに有利に働きます。 しかし、細かすぎる視覚的セマンティクスが異なる画像特徴にまとめられると、視覚的セマンティクスの抽象度が低下し、結果的にVLアライメントに悪影響を及ぼす可能性がある。 経験的に、ほとんどの場合、k = 2048が最も効果的であることがわかっているため、k = 2048をデフォルト設定として採用しています。 VD を用いないベースラインと比較すると、VD を用いた提案手法は、広い範囲の k(1024、2048、4096)において、ほぼすべての指標で優れた性能を示しました。 これにより、VDの有効性が検証され、VDが幅広いタスクに一般的に適用可能であることが示されました。
提案したビジュアルディクショナリー(VD)がどのように学習したかを理解するために、代表的なVDの指標を図3に視覚化しました。 3.2節で紹介したように、VDの指標は多くの視覚的特徴と相関しており、各視覚的特徴は画像パッチに対応している。 そこで、VDの指標をランダムに抽出し、それに対応する画像パッチを可視化した。 図3に示すように、VDは意味のある一貫した画像パッチを異なるインデックスにグループ化しており、これは視覚的セマンティクスの抽象化を反映している。 この視覚化により、学習したVDの強力な能力が示された。 その他の事例については、補足資料を参照してください。
BUTDベースの手法には、主に3つの推論ステージがある。 CNNフォワーディング、リージョンフィーチャー生成、Transformerフォワーディングの3つの推論ステージがある[2]。 一方、SOHOではCNNとTransformer forwardingの2つの推論ステージのみを含みます。 SOHOとBUTDベースの手法の推論効率を比較するために、V100 GPUを用いて、600×1000の入力解像度、ResNet-101バックボーン、12層Transformer、100ボックス、16文パディング長で実験を行いました。 ResNet-101でBUTD特徴を抽出する際の平均推論時間は21ms。 BUTDベースの手法とSOHOのTransformerの入力配列長は、それぞれ100 + 16 = 116、d600/64e ∗ d1000/64e + 16 = 176である。 したがって、Transformerの推論時間は、BUTDベースの手法では17ms、SOHOでは23msとなります。 BUTDベースの手法では、領域特徴の生成にかかる420msの時間コストに加えて、1,600個のカテゴリすべてに適用する必要がある非最大級の抑制にかかる時間コストが主なものとなっています。 その結果、推論ステップにおけるSOHOの44msの時間コストは、BUTDベースの手法の464msの時間コストに比べて約10倍高速です。 したがって、我々が開発した高効率のSOHOは、実際のアプリケーションへの応用が可能である。
本論文では、視覚言語モデル設計の新しい視点を示した。 特に、SOHOを提案する。 SOHOは、クロスモーダル理解のための包括的でコンパクトな視覚表現を学習する、最初のエンドツーエンドの視覚言語事前学習モデルの1つである。 言語トークンと融合可能な視覚的特徴を生成するために、画像を具体的な意味に変換する新しい視覚的辞書を提案します。 画像と言語の間の関連性を構築するために、3つの事前学習タスクを実施。 下流の4つのタスクでの性能は、SOHOが領域ベースの画像特徴を用いた事前学習モデルよりも優れていることを示している。 さらに、バウンディングボックスのアノテーションの必要性を排除し、人間の重いラベリングコストを削減しています。 また、このエンド・ツー・エンドのフレームワークは、視覚言語タスクの推論時間を約10倍に高速化するというメリットもあり、よりオンラインでの視覚言語アプリケーションが可能になります。 将来的には、視覚言語生成タスクをさらに探求し、認知レベルの視覚理解のための大規模な非ペアリングのマルチモーダルデータの利用を研究していきます。
ここでは,まず,表9に,我々の事前学習データセットと下流のデータセットの詳細なトレーニング/テスト画像とテキスト数をまとめます. また,最近のVLPTの研究で使用されている前処理用データセットの詳細な比較を表10に示す. ここではUNITER[7]に従い,事前学習データセットを "in-domain "と "out-of-domain "の2つのクラスに分類した。 MSCOCO Captions (MSCO)[25]やVisual Genome Dense Captions (VG)[20]は、多くのVL下流タスク(例:画像-テキスト検索)の典型的なインドメインデータセットである。 対照的に、Conceptual Captions [34] やSBU Captions [29] は、インドメインデータセットよりもノイズの多いアウトオブドメインデータセットです。 表10に、最近のVLPT作品のデータセットの使い方を示します。 例えば,VisualBERT [23],LXMERT [39],UNITER [7]は,インドメインのデータセットを用いて事前学習を行っています. その中でも、UNITER[7]は、モデルの学習にアウトオブドメインのデータを追加で使用しています。 UNITER[7]のアブレーションの研究では、アウトオブドメインの追加使用が性能をさらに向上させることを示している。 我々の研究では、多くのVLタスク(例:画像-テキスト検索)で一般的に使用され、多くのVLPT作品(例:VisualBERT[23]、LXMERT[39]、UNITER[7])で採用されているドメイン内データセットに焦点を当てます。 UNITERとの比較では、インドメインの事前学習結果が提供されていれば、それと比較します。 そうでない場合、我々の「indomain」データセット設定は、UNITERの「in-domain+outof-domain」事前トレーニング設定に劣り、我々の結果は直接比較できません。 今後の課題として、事前学習データにアウトオブドメインのデータを含めることを計画している。
トレーニング手順を高速化するために,2つの戦略を採用しました. まず,メモリコストを削減し,学習手順を高速化するために,混合精度の学習を採用しました. 次に,入力データを1つのミニバッチにまとめて再編成します. 1つのミニバッチ内では、複数の対応するテキストがある場合、画像を1回だけ視覚的バックボーンに転送し、各テキストと連結してクロスモーダル変換器にかけます。 例えば、事前学習の際には、各バッチにおいて、1つの画像が4つのテキストとペアになっており、その中には2つのポジティブなペアと2つのネガティブなペアが含まれています。 ここでは、ポジティブな画像とテキストのペアに対してのみ、MLMとMVMを適用する。
ビジュアルディクショナリー(VD)アイテムの意味を示すために、各インデックスにグループ化された画像パッチを視覚化する。 本稿では、2つの例を示したが、補足資料では、VDからさらに10個のインデックスをランダムに選択している。 図 4 に示した可視化結果から、VD の各項目が意味のある一貫したセマン ティクスを持っていることがわかる。 言い換えれば、我々のモデルは、監督のためのオブジェクト・バウンディング・ボックスのアノテーションがなくても、画像の異なるセマンティクスを表現するための統一的な表現を学習することができる。
本研究では、畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformer)の共同学習により、何百万もの画像とテキストのペアからクロスモーダルな位置合わせを学習することを目的とした視覚言語事前学習(VLPT)を研究しています。 従来の手法では、画像の顕著な領域を抽出し、その領域と単語を段階的に整列させていました。 領域ベースの視覚的特徴は、通常、画像の一部を表しているため、既存の視覚言語モデルでは、ペアの自然言語から意味を完全に理解することは困難である。 本論文では、画像全体を入力とし、エンドツーエンドで視覚言語表現を学習するSOHO(See Out of tHe bOx)を提案する。 SOHOはバウンディングボックスのアノテーションを必要とせず、リージョンベースのアプローチよりも10倍速く推論することができる。 特にSOHOは、クロスモーダルな理解を容易にするビジュアルディクショナリー(VD)を通じて、包括的かつコンパクトな画像特徴を抽出することを学習します。 VDは、類似したセマンティクスを持つ一貫した視覚的抽象表現を表すように設計されています。 VDはオンザフライで更新され、我々が提案する事前学習タスクであるMasked Visual Modeling (MVM)に利用されます。 我々は、4つの確立された視覚言語タスクに対して、標準的なVLPTの設定に従って実験を行った。 特に、SOHOはMSCOCOテキスト検索5kテストスプリットで2.0%のR@1スコア、NLVR2テスト-Pスプリットで1.5%の精度、SNLI-VEテストスプリットで6.7%の精度という絶対的な向上を達成しました。