視覚言語モデル適応における誤整合を因果関係の観点から再考する

fulfulggg commented 4 days ago

タイトル: 視覚言語モデル適応における誤整合を因果関係の観点から再考する

リンク: https://arxiv.org/abs/2410.12816

概要:

CLIPのような基盤となる視覚言語モデルは、下流タスクにおいて素晴らしい汎化能力を示しています。しかし、CLIPは特定のタスクに適応する際に、タスクのずれとデータのずれという2つのレベルの不整合問題を抱えています。ソフトプロンプトチューニングはタスクのずれを軽減しましたが、データのずれは依然として課題です。

データのずれの影響を分析するために、CLIPの事前学習と適応のプロセスを見直し、構造的因果モデルを開発しました。その結果、下流タスクに関連する情報を正確に捉えようとする一方で、タスクに関係のない知識が予測結果に影響を与え、画像と予測クラス間の真の関係のモデリングを妨げていることがわかりました。

タスクに関係のない知識は観測できないため、フロントドア調整を活用し、因果関係に基づくセマンティックデカップリングと分類（CDC）を提案することで、タスクに関係のない知識の干渉を軽減します。具体的には、下流タスクのデータに含まれるセマンティクスをデカップリングし、各セマンティクスに基づいて分類を行います。さらに、デンパス-シェーファー証拠理論を用いて、多様なセマンティクスによって生成された各予測の不確実性を評価します。

さまざまな設定で行われた実験により、CDCの有効性が一貫して示されています。

fulfulggg commented 4 days ago

論文要約

論文要約: 視覚言語モデル適応における誤整合を因果関係の観点から再考する

背景: CLIPのような強力な視覚言語モデルは、新しいタスクに適応させる際に「タスクのずれ」と「データのずれ」という問題に直面する。
問題点: 従来のソフトプロンプトチューニングはタスクのずれを軽減できるが、データのずれ（事前学習データとタスクデータの差異）は依然として課題。
分析: 本論文では、因果関係の視点からデータのずれを分析。タスクに関係ない知識が予測に影響を与え、画像と予測対象の真の関係のモデリングを阻害していることを発見。
提案手法 (CDC):
- タスクに関係ない知識の影響を軽減するため、因果関係に基づくセマンティックデカップリングと分類(CDC)を提案。
- 下流タスクデータのセマンティクスを分解し、それぞれのセマンティクスに基づいて分類を行う。
- デンパス-シェーファー証拠理論を用いて、各予測の不確実性を評価。
結果: さまざまな実験設定において、CDCがデータのずれによる悪影響を効果的に軽減することを確認。

fulfulggg commented 4 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

causal-inference
domain-generalization
vision-language-model

以下の新しいラベルが作成され、適用されました：

causal-inference

fulfulggg / Information-gathering