e4exp / paper_manager_abstract

0 stars 0 forks source link

Multimodal Contrastive Training for Visual Representation Learning #433

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本研究では、マルチモーダルデータに対応した視覚表現の学習方法を開発しました。 この学習方法は、モーダル内およびモーダル間の類似性を維持することを目的としています。 既存の視覚的な事前学習法は、単一のドメインのプロキシ予測タスクを解決するものであるが、我々の手法は、各モダリティ内の固有のデータ特性と、クロスモーダルな相関から得られる意味情報を同時に利用することで、学習された視覚的表現の質を向上させる。 また、マルチモーダルな学習を、異なるタイプの対照的な損失とともに、統一されたフレームワークに含めることで、本手法はより強力で汎用的な視覚的特徴を学習することができる。 まず、COCOでモデルを学習し、学習した視覚表現を、画像分類、オブジェクト検出、インスタンスセグメンテーションなどの様々なタスクで評価します。 例えば、本手法によってCOCO上で事前学習された視覚表現は、ImageNetの分類において、共通転送プロトコルの下で、55.3%という最先端のトップ1検証精度を達成した。 また、大規模なStock imagesデータセットを用いて本手法を評価し、マルチラベルの画像タグ付けやクロスモーダルな検索タスクにおいて本手法が有効であることを示しました。

e4exp commented 3 years ago
  1. はじめに

視覚表現の学習は,画像分類 [9, 50, 27, 30],タグ付け [16, 23],物体検出 [17, 47, 40],セマンティックセグメンテーションやインスタンスセグメンテーション [41, 26]など,多くのコンピュータビジョンタスクに不可欠である. 大規模なデータセットを用いた教師ありの事前学習[9]により、有用な視覚的特徴が得られ、これらのタスクにおいて最先端の性能が得られます。 しかし、細かいクラスラベリングの作業[9]は非常に重い。 自己教師付き学習法[4, 12, 59, 25, 5, 6]は,アノテーションを必要としないが,非常に大きな学習セットか長い学習エポックが必要である. ラベルに加えて、画像データにはタグやキャプションなどの付加情報が含まれていることが多いが、これらは通常、インターネットユーザーによって作成されるため、取得が容易である。 さらに重要なことは,このようなマルチモーダルな情報には,より高いレベルの抽象的な概念が含まれており,異なるモダリティ間で有用な関連性を引き出す可能性があるということである[22, 31, 34, 20, 15]. 我々の目的は、統一された学習フレームワークを用いて、マルチモーダルデータから視覚表現を学習することである。 そのためには、以下のような特性を持つフレームワークが必要です。

(1) ラベル付けされていない各モダリティ内のデータの可能性を、自己教師付きで完全に活用する。 (2) 異なるモダリティを共通の意味空間で比較し、類似性の維持を目的とすることで、異質性のギャップを埋める。

我々は,クロスモーダル相関モデリングによって得られる追加の意味情報だけでなく,各モダリティ自体が持つ固有のデータ特性から得られる高品質の視覚的特徴を学習することを目的としている. 最近提案されたいくつかの手法[46, 35, 18, 19, 10, 49 2]も,マルチモーダルデータを用いて高品質な視覚表現をゼロから生成することに焦点を当てている. 例えば、VirTex[10]は、教師なしの設定の極端さを緩和し、比較的容易に取得できるキャプションのアノテーションを採用することで、データ効率とアノテーションの手間をトレードオフしている。 しかし、図1に示すように、VirTexは、クロスモーダルな代理タスクを解くことで、シングルパス的に学習されており、各モダリティの潜在能力を十分に引き出すことができていません。

本論文では、マルチモーダルデータにおけるイントラモーダルおよびインターモーダルの類似性保存を統一的に捉え、それに基づいて図1に示すような新しい視覚表現学習フレームワークを開発しました。 具体的には、イントラモーダルな学習経路は、予測タスクにおける拡張データ例の本質的なパターンを捉えるために使用されます。 インターモーダルな学習スキームは、クロスモーダルな相互作用を取り入れることで、視覚的特徴を強化するために使用されます。 慎重に設計された対照的な損失により、すべてのモダリティの特徴は、複数のトレーニングパスでバックプロパゲーションにより調整されます。我々の貢献は2つの点に集約されます。

e4exp commented 3 years ago

image image

e4exp commented 3 years ago
  1. 結論

我々は、統一されたマルチモーダル学習フレームワークにおいて、視覚表現を学習するためのシンプルかつ効果的な手法を提案する。 これは、慎重に設計された対照的な損失を伴う2つのイントラモーダルとインターモーダルの学習パスで構成される。 様々なデータセットやタスクを対象とした広範な実験により、高品質な視覚的特徴を、より優れたスケーラビリティと移植性で学習できることが実証された。 我々のフレームワークは、すべてのモダリティ(ここでは画像とキャプション)に対して対称的であるため、ビデオやオーディオなどの他のモダリティにも柔軟に拡張することができる。