fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

視覚言語モデル適応における誤整合を因果関係の観点から再考する #491

Open fulfulggg opened 4 days ago

fulfulggg commented 4 days ago

タイトル: 視覚言語モデル適応における誤整合を因果関係の観点から再考する

リンク: https://arxiv.org/abs/2410.12816

概要:

CLIPのような基盤となる視覚言語モデルは、下流タスクにおいて素晴らしい汎化能力を示しています。しかし、CLIPは特定のタスクに適応する際に、タスクのずれとデータのずれという2つのレベルの不整合問題を抱えています。ソフトプロンプトチューニングはタスクのずれを軽減しましたが、データのずれは依然として課題です。

データのずれの影響を分析するために、CLIPの事前学習と適応のプロセスを見直し、構造的因果モデルを開発しました。その結果、下流タスクに関連する情報を正確に捉えようとする一方で、タスクに関係のない知識が予測結果に影響を与え、画像と予測クラス間の真の関係のモデリングを妨げていることがわかりました。

タスクに関係のない知識は観測できないため、フロントドア調整を活用し、因果関係に基づくセマンティックデカップリングと分類(CDC)を提案することで、タスクに関係のない知識の干渉を軽減します。具体的には、下流タスクのデータに含まれるセマンティクスをデカップリングし、各セマンティクスに基づいて分類を行います。さらに、デンパス-シェーファー証拠理論を用いて、多様なセマンティクスによって生成された各予測の不確実性を評価します。

さまざまな設定で行われた実験により、CDCの有効性が一貫して示されています。

fulfulggg commented 4 days ago

論文要約

論文要約: 視覚言語モデル適応における誤整合を因果関係の観点から再考する

fulfulggg commented 4 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: