WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

e4exp commented 3 years ago

https://arxiv.org/abs/2103.06561
2021

近年、視覚と言語の橋渡しを目的としたマルチモーダルな事前学習モデルが盛んに研究されています。しかし、これらのモデルの多くは、テキストと画像の間に強い相関関係があると仮定することで、画像とテキストのペアの間のクロスモーダルな相互作用を明示的にモデル化しています。この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である、大規模なマルチモーダル事前学習のために、クロスモーダル相関を暗黙的にモデル化することを選択しました。具体的には、画像とテキストのペアに弱い相関があると仮定して、クロスモーダル対比学習のフレームワークの中で、BriVLと呼ばれる2タワーの事前学習モデルを提案します。単純な対比学習法を採用しているOpenAI CLIPとは異なり、最新の手法であるMoCoをクロスモーダルのシナリオに適応させることで、より高度なアルゴリズムを考案しています。大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースでより多くのネガティブなサンプルを取り込むことができます。さらに、RUC-CAS-WenLanと呼ばれる大規模な中国のマルチソース画像-テキストデータセットを構築し、BriVLモデルの事前学習を行います。大規模な実験により、事前学習されたBriVLモデルは、様々な下流タスクにおいてUNITERとOpenAI CLIPの両方を上回ることが実証された。

e4exp commented 3 years ago

結論

本論文では、BriVLと呼ばれる初の大規模な中国語マルチモーダル事前学習モデルを紹介する。我々のBriVLモデルの最初のバージョンは、10億個のパラメータを持ち、3000万の画像-テキストペアを持つRUC-CAS-WenLanデータセットで事前学習されています。本プロジェクトの一環として、RUC-CASWenLanは、マルチモーダルな事前学習のために我々が構築した大規模な中国のマルチソース画像テキストデータセットです。 RUC-CASWenLanテストセットとAIC-ICCテストセットにおいて、我々のBriVLモデルがUNITERとOpenAI CLIPの両方を大幅に上回っていることは注目に値します。また、事前に学習したBriVLモデルを用いて、MatchSoulとSoul-Musicという2つのウェブアプリケーションを開発しました。近い将来、我々のBriVLモデルは100億個のパラメータに拡大され、5億個の画像-テキストペアで事前学習される予定である。さらに、マルチモーダルな事前学習のために、テキストから画像を生成する事前学習タスクも利用する予定です。

e4exp commented 3 years ago

e4exp / paper_manager_abstract

WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training #288