MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling

https://arxiv.org/abs/2109.12178
2021

視覚と言語の事前学習（VLP）は，画像やテキストの入力を必要とする下流のタスクのモデル性能を向上させる．現在のVLPアプローチは、

(i)モデルアーキテクチャ（特に画像エンベッダー）、 (ii)損失関数、 (iii)マスキングポリシーによって異なります。

画像エンベッダーは、ResNetのような深層モデルか、画像のピクセルを直接変換器に入力する線形投影のいずれかです。一般的に、マスクドランゲージモデリング（MLM）の損失に加えて、クロスモダリティインタラクションにはアライメントに基づく目的が、マスクドイメージリージョンモデリング（MIRM）にはRoI特徴回帰と分類タスクが用いられる。アライメントとMIRMの目的は、どちらもグランドトゥルースを持たないことがほとんどです。アライメントに基づく目的は、画像とテキストのペアリングとヒューリスティックな目的関数を必要とする。 MIRMは物体検出器に依存している。マスキングポリシーは、マルチモダリティを利用していないか、他のモデルによって生成されたアライメントと厳密に結合されている。本論文では、VLPのためのMasked Language and Image Modeling (MLIM)を紹介する。 MLIMは2つの損失関数を用いる。本研究では、クロスモダリティのインタラクションを高めるために、モダリティ・アウェア・マスキング（MAM）を提案し、テキストと画像の再構成品質を別々に捉えるMLMとRECONの損失を利用する。 MAMと結合したMLM+RECONタスクを用いて、簡略化したVLP手法を提示し、独自の電子商取引マルチモーダルデータセットにおいて、下流タスクのパフォーマンスが向上することを示す。

1 はじめに

変換アーキテクチャが登場し（Vaswaniら、2017年）、自然言語処理（NLP）タスクでの使用に初めて成功して以来（Devlinら、2018年）、ビジョンタスクに使用されるようになり（Dosovitskiyら、2021年、Wangら、2021年）、最終的にはビジョン・言語タスクに使用されるようになりました（Suら、2020年、Luら、2019年、Liら、2020年）。視覚と言語の事前学習のために、研究者は、 i)多様なアーキテクチャ、 ii)損失関数、 iii)マスキングポリシーを提案している。

モデルアーキテクチャは、画像を変換器への適切な入力シーケンスに変換するための異なる技術を採用している。損失関数は、画像領域のモデリングや、テキストと画像の間のアライメント関数を介したクロスモダリティの相互作用のために設計されている。マスキング戦略は、このアライメントを乱さないようにすることを目的としています。これらの技術は、いずれも最先端の技術であり、貴重な洞察を与えてくれました。しかし、これらの技術をどのように統合すれば、マスキングされた言語モデリング（MLM）ロスやテキスト・トークン・マスキングを用いたテキスト変換器の事前学習に匹敵するレベルの単純さと精度を、視覚と言語の事前学習で実現できるのかは不明です。

画像埋込器は、画像を埋込シーケンスに変換します。画像埋め込みシーケンスは、テキストトークン埋め込みシーケンスと連結され、変換器に転送されます。ほとんどのVLPモデルでは、画像埋め込み装置としてオブジェクト検出器を使用しています。これらのオブジェクト検出器は、Visual Genome (Krishna et al., 2016)またはImageNet分類(Russakovsky et al., 2015)データセットで訓練された深層畳み込みモデルである。オブジェクト検出器は、元々の検出カテゴリに限定されており、重量級のモデルです。エンド・ツー・エンドのトレーニングでこれらのモデルを適応させることができるが、VLPモデル（オブジェクト検出器＋変換器）の計算量やエンド・ツー・エンドの深さがトレーニングや推論の問題になることがある。視覚的変換器（ViLT）は、深い画像埋め込みを除去し、グリッドで定義された画像パッチへの線形投影を介して、ピクセルレベルの入力を変換器に直接供給する(Kim et al., 2021)。 ViLTは計算の複雑さを大幅に軽減するが、画像特徴の学習を変換器の層に任せ、テキストと画像埋め込みの相互作用を変換器の後の層に制限する。我々は、浅いCNNモデルをエンベッダーとして使用することで、低レベルのピクセルデータに対する高レベルの特徴を学習し、トランスフォーマー層全体でより良いクロスモダリティの相互作用を可能にすることを提案する。言語モデリングのためのMLM損失に加えて、Masked Image-Region Modeling (MIRM)は、画像モデリングのために様々な損失関数を使用する。

UNITERは，オブジェクト検出器から得られたRoI-特徴と予測されたオブジェクトクラスを，マスクされた画像領域のターゲット特徴とターゲットラベルとして使用する損失関数を提案する(Chen et al., 2020)．損失関数のもう一つのカテゴリーは、クロスモダリティの相互作用を促すためのアライメントベースの関数である。アラインメントに基づく目的の中には、画像とテキストの融合表現を一致させることを目的とするものがある（例えば、画像テキストマッチング（ITM））。他のアライメント目的は、より細かい解像度で動作し、トランスポートプランを介してシーケンスポジションレベルでテキストや画像の表現を揃えることを目的としている。 ITMでは、正と負のペアが必要です。我々は、このようなペアを用いたトレーニングは、下流のタスクに適していると考えており、ネガティブ/ポジティブの定義は、事前トレーニング中に一般化を妨げる可能性がある。

また、これらの損失関数は、グランドトゥルースのラベルを使用せず、ヒューリスティックに依存しています。我々は、テキストトークンに対するMLM損失と同様に、ヒューリスティックに基づかない損失関数を用いて、グランドトゥルースターゲットを定義する事前学習方法を設計することを目的としています。我々は、マスクド・イメージ・モデリング（MIM）のための画像再構成（RECON）タスクを、画像そのものをターゲットとして使用する。テキストトークンのマスキングは簡単ですが、画像モデリングのマスキングは簡単ではありません。オブジェクト検出器によって検出された画像領域は、画像内の意味的に重要な領域を定義するため、マスキングの良い候補となります。しかし、これらの領域はグランドトゥルースに依存せず、オブジェクト検出器の予測を使用するため、重いモデルが必要となります。また、マスキングは、テキストと画像の入力に対して独立して実行されると、クロスモーダルなアライメントを壊してしまう可能性があります。両方のモダリティで対応する表現をマスキングするためのこれらの要件を回避するために、テキストジェネレータを用いて得られる粗いアライメントが利用される（Zhuge et al. 我々は、オブジェクト検出器やアライメントに基づく目的を使用しないことで、これらの問題を回避する。

本論文では、VLPのペーントレーニングのために、Masked Language and Image Modeling (MLIM)を導入する。我々は、モデル内の主要コンポーネントとしてTransformer (Vaswani et al., 2017) を使用します。画像の埋め込みとマスキングの実行にはShallow-CNNベースの画像埋め込み器を使用し、RECON損失の計算にはCNNベースの画像デコーダを使用しています。テキストのトークン予測性能の測定にはMLM損失を、画像再構成性能の測定にはRECON損失を使用しています。 MLM損失はマスキングされたテキスト・トークンに対してのみ定義されるのに対し、RECON損失は画像の全ピクセルに対して定義されます。 MLM損失とRECON損失を組み合わせることで、テキストと画像の再構成性能を把握することができます。クロスモダリティのインタラクションには、アライメントベースの損失関数を使用せず、モダリティ・アウェア・マスキング（MAM）を使用しています。

MAMには3つの動作モードがあります：（1）重い画像マスキング、（2）重いテキストマスキング、（3）軽い画像マスキングと軽いテキストマスキング。

最初の2つのモードは、モダリティを超えた情報の流れを促進する。イメージエンベッダーを用いて、イメージエンベッディングをテキストトークンエンベッディングと共通のエンベッディング空間にすることを目指しています。イメージエンベッダーの出力に対して、イメージマスキングを行います。 MAMは、変換前の画像とテキストの入力をマスクし、MLM + RECON損失は、再構成されたテキストと画像の品質を測定します。独自に開発した電子商取引のマルチモーダルデータセットを用いて、我々のVLP事前学習手法の有効性を実証した。

我々の貢献は以下のようにまとめられる。

画像再構成（RECON）損失の使用を提案し、MLM＋RECONによる事前学習により、アライメントに基づく損失関数や画像領域モデリングに基づく損失関数の必要性がなくなることを示す。これにより、損失関数の設計が簡素化され、学習インスタンスを作成するために画像とテキストのペアを必要としない。
画像埋め込み装置として浅いCNNを使用します。我々の画像埋め込み装置は、ResNetのようなディープモデルよりもはるかに軽量で、画像マスキングにも適しています。浅いCNNの画像埋め込み器は、画像ピクセルをより高いレベルの表現にすることができ、画像埋め込みとテキスト埋め込みの間の相互作用を促進することができることを示します。
MAMは、クロスモーダルな情報の流れを促進するマスキングポリシーを介して、テキストと画像の再構成品質を捉える2つの損失関数を利用することを示す。

3 Masked Language and Image Modeling

3.1 モデルの概要

MLIMのモデルアーキテクチャを図1に示します。画像とテキストのペアが与えられると、テキストはトークン化され、変換器の単語埋め込みと単語位置埋め込みを使って埋め込まれます。画像は、浅いCNNモデルと画像位置埋め込みを使って埋め込まれます。具体的には、画像埋め込み装置は、カーネルサイズ2x2、ストライド2の2次元フィルタを用いた畳み込み層を持つCNNモデルである。水平方向と垂直方向のカーネルサイズをストライドと同じにすることで、各入力は単一のフィルタの出力にしか寄与しない。そのため、画像の埋め込みは、元の画像の解像度で重ならないピクセル領域に対応し、埋め込みをマスクすることで、画像のある領域から取り込まれたすべての情報が削除されます。したがって、マスクされた領域のピクセルデータの予測は、既存のテキストおよび画像埋め込みから情報を収集するために、変換器の自己注意層に任されます。これにより、テキストから画像への情報の流れが良くなることが分かりました。テキストは、変換器のトークナイザー（例：BERT用WordPiece）を使用してトークン化されます。単語埋め込みは、変換器の単語埋め込みから取得する。画像の埋め込みと単語の埋め込みの両方は、別々に位置の埋め込みを持っており、これを埋め込みに追加する。 2つのモダリティのために別々の位置の埋め込みがあるので、モダリティの埋め込みを持つことは冗長である。そのため、明示的なモダリティ埋め込み（BERTにおける「セグメント埋め込み」）は行わない。画像デコーダは，画像埋め込みに対応する変換器出力を入力する．変形器出力（1次元ベクトル・シーケンス）は、デコンボリューション・フィルタリングのために、2次元ベクトル・グリッドに再形成されます。画像デコーダは、カスケード接続されたデコンボリューション層で構成され、2Dベクトルグリッドを3つのカラーチャンネルを持つ元の画像解像度に戻します。デコーダの出力は、（image_width, image_height, 3）のような形状のテンソルです。最後に，要素ごとのシグモイド関数をデコーダの出力テンソルに適用して，各色チャンネルのピクセル強度の範囲（すなわち，[0-1]）を一致させる．ここでは，2つの事前学習タスクを用意しました．

1つは，Masked Language Modeling（MLM），もう1つは，Modality Aware Masking（MAM）を用いた画像再構成（RECON）です．

MAMは、単語と画像の両方の埋め込みにマスキングを適用します。画像と単語の両方のマスキングは、ある埋め込みを[MASK]の埋め込みに置き換えることで実現します。このようにして、変換層は[MASK]の埋め込みを、モダリティとは無関係に、層の入力の他のベクトルに注目して「埋める」必要のある特別な埋め込みとして認識する3。位置情報の埋め込みはマスクしないので、マスク後に追加される。 MAMは、図1に示す3つのモードで動作する。事前学習として、画像とテキストのペアのミニバッチを与え、マルチロス目的としてMLM + RECONを適用する。

3.2 MLIMの事前学習の目的

マスクド・ランゲージ・モデリング（MLM）。

このタスクの目的は、利用可能な単語と画像領域から、マスクされた単語を予測することです。このタスクでは、BERTに従っています。 2層MLP MLMヘッドは、ボキャブラリー上のロギットを出力します。 MLMの損失は、マスクされた単語に対する負の対数尤度である。 MAMは、マスキング確率を決定する。

Masked Image Modeling (MIM):

このタスクの目的は、利用可能な単語と画像領域からフル画像を再構築することです。当社のRECON損失は、ピクセル単位の二乗誤差の合計（SSE）の平均値です。どちらのタスクも、マスキングされた画像とテキストの入力を再構成することを目的としています。 MLMタスクは、マスクされたトークンのみを再構成するのに対し、MIMタスクは、画像全体を再構成します。これは、画像エンベッダーが、ピクセルデータの非可逆表現である入力画像領域に対応するエンベッディングを出力するためです。したがって、MIMタスクは、マスクされた画像領域とマスクされていない画像領域の再構成、つまり、画像全体の再構成と定義した方がよいでしょう。他のタスクはありません。具体的には、画像領域の特徴の予測、画像領域の分類、モダリティや埋め込み配列-位置レベルでのアラインメント・ロスなどはありません。

4 実験

事前学習には，Amazonカタログデータを使用した． Amazonカタログには、オンラインで購入できるアイテムが含まれています。これらのアイテムは、画像とテキストの属性を持っています。カタログアイテムの画像は主に単一アイテムの画像であり、テキストはアイテムの属性を記述している。事前学習のために、カタログから6M個のアイテムとその関連属性を抽出しました。我々は、Amazon内部のデータセットを用いてMLIMを評価し、密接にマッチした（CM）アイテムのペアを見つけるタスクを収集した。アイテムのペアは、2つのアイテム間のバリエーションのタイプに応じて、マッチまたはミスマッチとしてラベル付けされます。関係性を学習し予測することは、カタログシステムにおいて必須のタスクであり、画像とテキストの両方を入力として必要とする。 CMデータセットには，30Kの学習例と10Kのテスト例がある．

4.1 実装の詳細

すべての実験において、Adamオプティマイザを使用し、学習率は8∗ 10-4に固定した。画像を384×384の解像度にリサイズします。 Huggingface (https://huggingface.co/, [n.d.])の事前学習済みBERTモデル(bert-large-uncased)を使用し、変換器として24個のスタックされた変換ブロック、16個のアテンションヘッド、1024個の隠れた状態の次元を使用し、Amazonカタログの事前学習データセットで学習を続けます。画像エンベッダーとデコーダはランダムに初期化されます。画像埋め込み器は7層のCNNで、200Kのパラメータを持っています。画像デコーダは、10層、280万個のパラメータを持つデコンボリューショナルネットワークです。エンコーダの出力は8×8のグリッドで，これを長さ64の1次元配列に整形して変換器に入力する．エンコーダーは軽量、デコーダーは重量としました。

4.2 結果

4.2.1 ペアワイズ・ダウンストリーム・タスクの微調整

CMダウンストリーム・タスクでモデルを微調整し、評価した。画像とテキストのペアの入力は、セパレータ・トークンを使用して連結されます。モデルグラフから画像デコーダを削除し、マスキング戦略を適用せずに微調整を行う。下流のタスクに対するVLPモデルの微調整はほとんど簡単ですが、VLPモデルには新たな微調整のコツがあります。今回のCMタスクでは、画像とテキストのペアの入力を必要とするため、モダリティ・ドロップアウト（MDO）を採用することで、このマルチモダリティを活用します。 MDOは、ランダムに片方のモダリティを削除することで、微調整を行います。 MAMと同様に、MDOはマイクロバッチ上で、テキストのみ、画像のみ、画像-テキストモードの3つのモードのいずれかで動作します。

表1では、PR AUC値を示しています。 MDOによる微調整でさらに性能が向上します。

表2では、損失関数に対するアブレーションの研究を示しています。ITM損失の代わりにRECON損失を使用すると、PR AUCが0.855から0.884に向上します。 ITM 損失を MLM および RECON と共に使用しても、性能は変わらない。

4.2.2 クロスモダリティインタラクション

前述のように、トランスにおけるクロスモダリティインタラクションは、VLPモデルにおける望ましい目的である。このセクションでは，提案手法におけるクロスモダリティ・インタラクションの証拠を示す．ここでは，異なる入力方式のテストデータにおけるMLMおよびRECONの損失を示す．図2aでは、データセットからサンプリングしたランダムな画像とペアになったテキスト入力、画像なし（特にグレー画像）とペアになったテキスト入力、データセット内の元の画像とペアになったテキスト入力について、テキストとトークンのマスキング確率を変えて計算したMLM損失を示している。画像を用いることでMLMの損失が減少していることから、変換器が画像入力からの情報を用いてMLMタスクを達成していることがわかります。図2bでは、データセット内のランダムなテキストとペアになった画像入力、空のテキストとペアになった画像入力、データセット内の元のテキストとペアになった画像入力について、異なる画像埋め込みマスキング確率で計算されたRECON損失を示しています。テキストを用いることでRECONの損失が減少することから、変換器がテキスト入力からの情報を用いてRECONタスクを達成していることがわかります。ランダムなテキスト入力は、ランダムな画像がMLMの性能を低下させるよりも、RECONの性能を低下させることが分かりました。これは、画像からテキストへの情報の流れに比べて、テキストから画像への情報の流れがより重要であることを意味しているのかもしれません。

e4exp / paper_manager_abstract