Open e4exp opened 3 years ago
結論
我々は、文脈に応じた多言語マルチモーダル表現を学習するための多言語マルチモーダル事前学習(MMP)戦略、Multi-HowTo100Mデータセット、Transformerベースのテキスト-ビデオモデルを発表した。 本論文の結果は、MMPが視覚言語モデルのゼロショットの言語間転送に不可欠な要素であることを説得的に示している。 一方で、ゼロショットとドメイン内の非英語アノテーションを用いた学習との性能差の解消や、視覚言語モデルの品種を転送する技術(例えば、VQA(Goyal et al.2017)やTVQA(Lei et al.2020))など、残された課題は多い。 私たちが提案する方法論と、それに対応するリソースを公開することは、この方向性の研究を促進するための重要な第一歩になると考えています。
本論文では、視覚言語モデルのゼロショットの言語間転送について研究している。 具体的には、多言語テキスト-ビデオ検索に焦点を当て、文脈に応じた多言語マルチモーダル埋め込みを学習するTransformerベースのモデルを提案する。 ゼロショットの設定では、英語以外の文章を多言語テキスト-ビデオモデルに照会すると、性能が著しく低下することを経験的に示した。 この問題を解決するために、我々は多言語マルチモーダル事前学習戦略を導入し、事前学習用の新しい多言語教育ビデオデータセット(MultiHowTo100M)を収集した。 VTTを用いた実験により、我々の手法は、英語以外の言語でのビデオ検索を、アノテーションを追加することなく大幅に改善することができた。 さらに、多言語アノテーションが利用可能な場合、我々の手法は、VTTおよびVATEXにおける多言語テキスト-ビデオ検索、およびMulti30Kにおける多言語テキスト-画像検索において、最近のベースラインを大差で上回る。 我々のモデルとMulti-HowTo100Mは、このhttpのURLから入手できます。