Open e4exp opened 3 years ago
結論
本論文では、BriVLと呼ばれる初の大規模な中国語マルチモーダル事前学習モデルを紹介する。 我々のBriVLモデルの最初のバージョンは、10億個のパラメータを持ち、3000万の画像-テキストペアを持つRUC-CAS-WenLanデータセットで事前学習されています。 本プロジェクトの一環として、RUC-CASWenLanは、マルチモーダルな事前学習のために我々が構築した大規模な中国のマルチソース画像テキストデータセットです。 RUC-CASWenLanテストセットとAIC-ICCテストセットにおいて、我々のBriVLモデルがUNITERとOpenAI CLIPの両方を大幅に上回っていることは注目に値します。 また、事前に学習したBriVLモデルを用いて、MatchSoulとSoul-Musicという2つのウェブアプリケーションを開発しました。 近い将来、我々のBriVLモデルは100億個のパラメータに拡大され、5億個の画像-テキストペアで事前学習される予定である。 さらに、マルチモーダルな事前学習のために、テキストから画像を生成する事前学習タスクも利用する予定です。
近年、視覚と言語の橋渡しを目的としたマルチモーダルな事前学習モデルが盛んに研究されています。 しかし、これらのモデルの多くは、テキストと画像の間に強い相関関係があると仮定することで、画像とテキストのペアの間のクロスモーダルな相互作用を明示的にモデル化しています。 この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である、大規模なマルチモーダル事前学習のために、クロスモーダル相関を暗黙的にモデル化することを選択しました。 具体的には、画像とテキストのペアに弱い相関があると仮定して、クロスモーダル対比学習のフレームワークの中で、BriVLと呼ばれる2タワーの事前学習モデルを提案します。 単純な対比学習法を採用しているOpenAI CLIPとは異なり、最新の手法であるMoCoをクロスモーダルのシナリオに適応させることで、より高度なアルゴリズムを考案しています。 大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースでより多くのネガティブなサンプルを取り込むことができます。 さらに、RUC-CAS-WenLanと呼ばれる大規模な中国のマルチソース画像-テキストデータセットを構築し、BriVLモデルの事前学習を行います。 大規模な実験により、事前学習されたBriVLモデルは、様々な下流タスクにおいてUNITERとOpenAI CLIPの両方を上回ることが実証された。