e4exp / paper_manager_abstract

0 stars 0 forks source link

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training #562

Open e4exp opened 3 years ago

e4exp commented 3 years ago

視覚言語の事前学習(VLP)は、画像とテキストのペアからマルチモーダルな表現を学習し、下流の視覚言語タスクのために微調整を行うことを目的としています。 一般的なVLPモデルは、CNN-Transformerアーキテクチャを採用しており、画像をCNNで埋め込み、画像とテキストをTransformerで整列させます。 視覚コンテンツ間の視覚的関係は、画像理解において重要な役割を果たし、インターモーダルアライメント学習の基本となる。 しかし、CNNは局所的な受容野が長距離の依存関係をモデル化するのに弱いため、視覚的関係の学習には限界があります。 このように、視覚関係の学習とインターモーダル・アライメントの学習という2つの目的が、同じTransformerネットワークに内包されています。 このような設計は、それぞれの目的に特化した特性を無視することで、Transformerにおけるインターモーダルアライメント学習を制限する可能性があります。 この問題に対処するために、我々はVLPのための完全なTransformer visual embeddingを提案し、視覚的関係をより良く学習し、さらにinter-modal alignmentを促進します。 具体的には、視覚モダリティと言語モダリティの間の相互作用(インターモダリティ)を測定するために、インターモダリティ・フロー(IMF)という指標を提案します。 また、Transformerにおいて、Masked Feature Regression (MFR)という新しいマスキング最適化メカニズムを設計し、インターモダリティ学習をさらに促進します。 我々の知る限り、本研究は、VLPにおける視覚的特徴の学習に対するTransformerの利点を探る最初の研究です。 本研究では、Visual Question Answering (VQA)、Visual Entailment、Visual Reasoningを含む広範囲の視覚言語タスクで本手法を検証した。 我々の手法は、最先端のVLPの性能を上回るだけでなく、IMF指標においても利点を示した。

e4exp commented 3 years ago

1 はじめに

視覚言語事前学習(VLP)は,Visual Question Answering(VQA)やVisual EntailmentなどのVisual-Language(VL)タスクに大きな効果があることが,最近の多くの研究で示されています[9, 28, 29, 32, 36, 38, 46]。 VLPは、膨大な数の画像とテキストのペアに対して、視覚と言語(VL)の共同表現とアライメントを学習するように設計されています。 これは、下流のVLタスクのためのマルチモーダル表現の強力な初期化を微調整しながら提供するものである。 本論文では、イントラ・モーダルおよびインター・モーダル学習の観点から、VLPの主な課題であるマルチモーダル表現の改善方法を探ります。 既存の研究では、画像特徴を視覚的トークンとして使用し、マルチモーダルトランスフォーマーを用いて単語トークンとのアライメントを学習しています。 VLPのための画像表現には大きく分けて、領域特徴、グリッド特徴、パッチ投影の3種類がある。 ほとんどのVLPアプローチ[9, 38, 36]では、既製のオブジェクト検出器を用いて領域ベースの画像特徴を抽出します。 VLPの各ビジュアルトークンは,あらかじめ定義された領域特徴に対応しています. 最近の研究では、バウンディングボックスや事前に定義されたオブジェクトカテゴリの制限を解除するために、CNNによって画像からグリッド特徴を直接学習するものがある[19, 18]。 これらの研究では、CNNとマルチモーダル・トランスフォーマーをエンド・ツー・エンドで学習し、事前学習の目的に合わせて最適化された視覚的特徴を実現しています。 CNNによる視覚的特徴の学習以外にも、最近の研究ViLT[25]では、画像パッチの投影をマルチモーダルトランスフォーマーに直接入力し、最も軽量なVLPアーキテクチャで最速の推論速度を実現しています。

ビジョン・ランゲージ(VL)タスクでは、視覚的な概念の関係性が重要となる。 例えば、サーフィンをしている男性の画像を与えて「その男性は何をしているのか」と問う場合、VLモデルはオブジェクト「男性」とオブジェクト「サーフボード」から「サーフィン」の関係を推論する必要があります。 しかし、既存の3種類の画像表現では、視覚内の関係をモデル化することができませんでした。 リージョン特徴とパッチ投影は、それぞれのユニット(バウンディングボックスやパッチ)が独立しており、グローバルな関係が視覚的な埋め込みにエンコードされていません。 一方、CNNが学習するグリッド特徴では、畳み込み層の局所的な受容野により、隣接領域の局所的な特徴が得られる。 このように、視覚的関係の学習とインターモーダル・アライメントの2つの目的が、1つのTransformerネットワークに内包されています。 このような設計は、それぞれの目的に特化した特性を無視することで、Transformerでのインターモーダル・アライメント学習を制限する可能性があります。 一方、言語の場合、テキストは高度に構造化されており、文法から関係が明示されています。 このような異なるモダリティの矛盾した表現は、マルチモーダルなTransformerのインターモーダル・アライメントから気をそらすことになります。

視覚的な関係をよりよく学習し、インターモーダルな整合性をさらに促進するために、我々は、視覚的特徴の学習に自己注意を採用した完全なTransformer VLPモデルを提案します。 自己注意は、空間的な帰納的バイアスを解消し、視覚的特徴の長距離グローバル関係学習を可能にします。 これにより、マルチモーダルなTransformerをマルチモーダルな共同学習に特化させることができます。 Self-attentionメカニズムでは、各視覚的トークンは、すべてのトークンの近似的な重み付き混合物です。 重みが大きいほど依存度が高いことを示します。 このような画像特徴の学習方法をビジュアルパーシングと呼んでいます。 視覚的解析は、各視覚的トークンペアの依存関係を提供するので、依存性の高い視覚的トークンをマスクして、マルチモーダル・トランスフォーマーに言語側を見させることで、インターモーダル学習をさらに促進することができます。 我々の目標は、インターモダリティ学習の促進です。 これを調べるために、VLPにおけるインターモダリティの融合を測定するために、Attention Flow [1]をベースにしたInter-Modality Flow (IMF)という指標を提案しています。 IMFは、2つのモダリティ間の情報の流れを定量化することを目的としています。

本手法の有効性を検証するために,視覚的関係性の理解やインターモーダルな推論に関連する幅広いビジョン言語タスクの実験を行った. 我々のアプローチは、最先端のVLP性能を上回るだけでなく、IMF指標においても利点を示した。 また、我々の提案する自己注意型視覚解析および解析に基づくマスキングメカニズムの有効性を実証するために、広範囲なアブレーション研究を行った。 視覚言語事前学習におけるインターモダリティ学習を、情報の流れとデータの分配の観点から徹底的に検証します。 その結果、視覚と言語がどのように融合しているかを明らかにしました。 我々の貢献は以下の通りである。 我々のアプローチの有効性を検証するために、視覚関係の理解とインターモーダルな推論に関連した広範囲の視覚言語タスクの実験を行う。 我々のアプローチは、最先端のVLPの性能を上回るだけでなく、IMF指標においても利点を示した。 また、我々の提案する自己注意型視覚解析および解析に基づくマスキングメカニズムの有効性を実証するために、広範囲なアブレーション研究を行った。 視覚言語事前学習におけるインターモダリティ学習を、情報の流れとデータの分配の観点から徹底的に検証します。 その結果、視覚と言語がどのように融合しているかを明らかにしました。我々の貢献は以下のようにまとめられます。

1 マルチモーダル・トランスフォーマーのインターモダリティ学習を促進することを目的として、VLPの視覚的特徴の学習に自己注意を採用したのは我々が初めてである。我々のモデルは、広範囲の視覚言語タスクにおいて、既存の作品よりも優れている。 2 VLPにおける視覚と言語の融合を測定し明らかにするために、新しいインターモダリティフロー(IMF)メトリックを提案する。 3 自己注意のための新しいマスキング最適化ターゲットを設計し、インターモーダリティ学習をさらに促進させることを、よくデザインされたアブレーション研究によって検証する。

e4exp commented 3 years ago

3 アプローチ

3.1 自己注意型ビジュアル・パーサー

グリッド機能は、リージョン・ベースの画像特徴の制限を克服し、画像内のすべての視覚情報を保持する[18]にもかかわらず、CNNベースの画像特徴学習は、視覚言語の事前学習に利用する場合、依然として困難です。 最も重要なことは、畳み込みは画像内の局所的な領域に焦点を当てる傾向があり、グローバルな視覚的関係の学習はマルチモーダル・トランスフォーマーに任せるということです。 マルチモーダルなTransformerは、インターモーダルな相互作用の学習に集中するのではなく、視覚モダリティの相互作用も学習しなければなりません。 言語面では、テキストは高度に構造化されており、文法からの相関関係が明示されています。 例えば、前置詞や動詞は対象物の関係性を示すことが多いです。 この2つのモダリティは、マルチモーダルなTransformerに入力されると、異なる情報レベルになります。 この不整合により、Transformerは各モダリティの単独表現を学習する傾向にあります。 その結果、マルチモーダル・トランスフォーマーは、インターモーダル・アライメントの学習に集中することができなくなります。

Vision Transformer (ViT) [13]にヒントを得て、我々は視覚言語の事前学習において、視覚的な埋め込みのために自己注意を適用します。 視覚的特徴を学習するために、我々はパラメータθを もつvision transformer VTを採用する

image

ここで,I は入力画像,m は視覚的特徴の数,c は隠れた状態の次元を表しています. 計算量を減らすために,階層構造を持つSwin Transformer [31]を採用しています. ウィンドウをシフトすることで、画像全体よりも受容野が小さくなりますが、大きなウィンドウサイズと段階的なダウンサンプリングのメカニズムにより、空間的な誘導バイアスはCNNよりもはるかに低くなります。 また、視覚トークンの相関関係を明示的に取得しています。 Vision Transformerの最後の層では、各トークンのペアの相関関係を、特徴がどのように混ざり合うかを追跡する注目度の重みでモデル化することができます。

image

3.2 Inter-modality Probing

視覚-言語事前学習のシングルストリーム構造では、視覚と言語のモダリティを融合させるために、マルチモダルトランスフォーマーが使用されます。 2つのモダリティ間の相互作用を定量化するために、Inter-Modality Flow (IMF)という指標を提案し、視覚と言語がどのように融合するかを探ります。 Transformerは、自己注意モジュールとフィードフォワードニューラルネットワークのスタックです。 画像とテキストの相互作用は、自己注意モジュールにのみ存在します。 Attention Flow [1]に従い、まず、各トークンに対する共有演算を除いた層lの値を 計算する

image

ここで,TlとTl+1は層lの入力と出力であり,Wl attは層lの注意ウェイトである. 残留接続を考慮して、混合物の重みは次のように表すことができる。

image

トランスフォーマーの層を伝搬する情報を追跡するために、まず、任意の2つの層、例えば、層iと層j(j ≥ i)のアテンションフローを計算します。

image

この計算は、2つの層の間のすべての可能な経路を合計したもので、Ai,jは層iの入力から層jの出力への注意の重み行列である。 2つのモダリティ間の相互作用を測定するために、インターモダリティ・フローF i,jインターを提案し、それはすべての注意のうちインターモダリティの注意の割合として計算される

image

ここで、A i,j interは視覚と言語のインターモダリティ特徴の全注目度に対する総和であり、A i,j intraは視覚または言語の1つのモダリティに対する総和である。

image

ここで、φinter = {x∈V, y∈L or x∈L, y∈V } and φintra = {x, y∈V or x, y∈L}である。 LとVはビジョンとテキストのトークンインデックスセットです。 2つのモダリティがどのように相互作用するかを調べるために、事前のトレーニングデータでF i,j interを計算します。

3.3 事前学習用パイプラインモデルの概要。

図1は、私たちの視覚言語の事前学習フレームワークの概要を示しています。 我々のモデルは、Vision TransformerとMulti-modal Transformerで構成されています。 Vision Transformerは、画像を入力とし、視覚トークンV = {v1, v2, ..., vi , ...vm}を出力します。 画像の空間情報をエンコードするために、他の研究[8, 33, 13]に倣って、サイン関数によって計算された2次元位置エンベッディングを利用します。 また,ビジョントークンを埋め込むために,線形層と層の正規化[3]を行う. 入力文に対しては,BERT [11] に従い,トークン化して単語埋め込みWを得る. 視覚と言語のトークン(VとW)を連結し,マルチモーダル学習のための入力シーケンスを形成する. 他のVLPモデルと同様に、分類位置と2つのモダリティの分離を示すために、2つの特別なトークンである[CLS]と[SEP]を入力シーケンスに追加します。 多層構造のTransformerは、視覚と言語の合同入力を受け取り、出席した特徴を出力するために採用されています。 Vision Transformer V Tと区別するために、Multi-modal Transformer MTと呼んでいます。 本モデルでは、3つの事前学習タスクを採用しています。 MLM(Masked Language Modeling)、ITM(Image-Text Matching)、MFR(Masked Feature Regression)です。 これらのうち、MLMとITMは一般的に使用される2つの事前学習タスクであり、MFRは本フレームワークにおいて類似または相関する意味を持つ視覚的トークンをマスクするために提案された新しいタスクである。

マスクド・ランゲージ・モデリング (Masked Language Modeling)

我々は、多くの視覚言語の事前学習に倣い、Masked Language Modeling (MLM)を採用し、文脈に基づいたトークンからマスクされたテキストトークンの地の利のラベルを予測する[9, 18, 25]。

image

BERT と同様のマスキング戦略を採用し、MLM ヘッドとして線形層を使用して、語彙に対するロ ジットを出力し、マスキングされたトークンに対する負の対数尤度損失として計算します。

イメージ・テキスト・マッチング

インターモーダル・アラインメントを学習するために、多くの視覚言語の事前学習作品[9, 18, 25]と同様に、事前学習にImage-Text Matching (ITM)タスクを採用する。 確率0.5で、整列した画像をランダムに別の画像に置き換えます。 ITMヘッドとして単一の線形層を使用し、二値クラス(一致するか否か)の対数yを予測し、負の対数尤度損失をITM損失として計算します。

image

また,[9, 25]の単語領域アライメントにヒントを得て,ビジョン言語トークンアライメント(VLA)タスクを設計した. VLAの損失は,IPOT [42]で近似されるOptimal Transport (OT)距離を最適化します. また,[9, 25]と同様に,VLAの損失に0.1を乗じたものをITMの損失に加えています.

マスクされた特徴回帰。

バウンディングボックスがないと、モデルが近隣の特徴から直接コピーしてしまう可能性があるため、視覚特徴回帰のためのランダムマスキングは有効性を失う[18]。 3.1節で紹介した視覚的解析では、各視覚的トークンの相関関係を注目度の重みで明示的にモデル化する。 式3のAlと同様に、マスキングには最後のレイヤーの注目度を使用します。 ここでは、注目度の高いビジュアル・トークンは、似たようなセマンティクスや相関を共有していると仮定する。 まず、マスクする視覚的トークンをランダムに1つ選び、トップkの注目度を持つトークンをマスクする。 マスクされたトークンと回帰された特徴量の間でL2回帰を行う。

image

ビジョン・トランスフォーマーとマルチモーダル・トランスフォーマーは、上記の目的のためにエンド・ツー・エンドで訓練されています。

image