e4exp / paper_manager_abstract

0 stars 0 forks source link

Multimodal Fusion Refiner Networks #348

Open e4exp opened 3 years ago

e4exp commented 3 years ago

マルチモーダルな情報に依存するタスクには、通常、異なるモダリティからの情報を結合する融合モジュールが含まれます。 本研究では、融合モジュールが強力なユニモーダル表現と強力なマルチモーダル表現を組み合わせることを可能にするRefiner Fusion Network (ReFNet)を開発しました。 ReFNetは、融合ネットワークと、モダリティ中心の責任条件を課すデコード/デフュージングモジュールを組み合わせています。 このアプローチは、ユニモーダル表現と融合表現の両方が潜在的な融合空間に強くエンコードされていることを保証することで、既存のマルチモーダル融合フレームワークの大きなギャップを解決します。 我々は、リファイナー融合ネットワークが、マルチモーダル・トランスフォーマーのような強力なベースライン融合モジュールの性能を向上させることができることを実証した。 リファイナー融合ネットワークは、潜在的な空間に融合された埋め込みのグラフィカルな表現を誘導することができる。 これらのグラフ構造は、ReFNetとMulti-Similarity contrastive loss functionを組み合わせることでさらに強化される。 リファイナー融合ネットワークのモジュール性は、異なる融合アーキテクチャと容易に組み合わせることができ、さらに、リファイナーステップをラベルのないデータセットでの事前学習に適用することで、教師なしのデータを活用して性能を向上させることができる。 我々は、3つのデータセットでリファイナー融合ネットワークの能力を実証し、さらに、わずかなラベル付きデータでも性能を維持できることを示す。

e4exp commented 3 years ago
  1. 我々はReFNetを提案する。 ReFNetは、特定のモダリティをそれぞれ担当するニューロンを誘導するのに役立つ、任意の融合モジュールに追加できるリファイナーモジュールである。 ReFNetは、強力な変換器よりも性能を向上させることができ、特定の条件下で示すことができる潜在的なグラフィック構造を誘導するのに役立つことを示します。

  2. ReFNetMSと呼ぶ計量学習と組み合わせると、性能がさらに向上し、T-SNEプロットから、異なるクラスのより強力なクラスタリングと表現を生成できることが推測されます。

  3. 最後に、ReFNetは少ないラベル付きデータに対する耐性が向上し、アノテーションの必要性を減らすことができることを示しています。

e4exp commented 3 years ago

image image image image image image image image image image