COSMo: オープンセット複数ターゲットドメイン適応におけるCLIPによる対話

fulfulggg commented 2 months ago

タイトル: COSMo: オープンセット複数ターゲットドメイン適応におけるCLIPによる対話

リンク: https://arxiv.org/abs/2409.00397

概要:

マルチターゲットドメイン適応 (MTDA) は、単一のソースドメインからドメイン不変の情報を学習し、ラベル付けされていない複数のターゲットドメインに適用することを目的とします。しかし、既存の MTDA 手法は、主に視覚特徴内のドメインシフトへの対処に重点を置いており、セマンティック特徴が見落とされ、未知クラスの処理に苦労することが多く、オープンセット (OS) MTDA と呼ばれる問題が発生します。CLIP のような大規模なビジョン言語基盤モデルは有望ですが、MTDA の可能性はほとんど探求されていません。本稿では、ソースドメインガイド付きプロンプト学習を通じてドメインに依存しないプロンプトを学習し、プロンプト空間における MTDA 問題に取り組む新しい手法である COSMo を紹介します。ドメイン固有のバイアスネットワークと、既知クラスと未知クラスの個別のプロンプトを活用することで、COSMo はドメインとクラスのシフトに効果的に適応します。私たちの知る限り、COSMo はオープンセットマルチターゲット DA (OSMTDA) に対処する最初の方法であり、現実世界のシナリオをより現実的に表現し、オープンセットとマルチターゲット DA の両方の課題に対処します。COSMo は、Mini-DomainNet、Office-31、Office-Home の 3 つの困難なデータセットにおいて、OSMTDA 設定内で動作するように適応された他の関連する DA 手法と比較して、平均 5.1% の改善を示しています。コードは https://github.com/munish30monga/COSMo で入手できます。

fulfulggg commented 2 months ago

論文要約

論文要約: COSMo: オープンセット複数ターゲットドメイン適応におけるCLIPによる対話

従来手法の課題: 従来の画像認識技術は、未知のデータが多い現実の場面では、未知のクラスへの対応や複数の異なる環境への適応が困難だった。
COSMo の提案: 本論文では、大規模言語モデル CLIP を活用し、未知のクラスを含む複数の異なる環境に対応できる 新しい画像認識手法 COSMo を提案。
COSMo の仕組み:
- ドメインに依存しないプロンプト学習: 事前に学習させた CLIP の知識を活用し、特定の環境に偏らない一般的な画像認識能力を獲得。
- ドメイン固有のバイアスネットワーク: 環境ごとに異なる特徴を捉え、より正確な認識を可能にする。
- 既知/未知クラスの個別プロンプト: 既知のクラスと未知のクラスを区別して学習することで、未知のクラスにも対応可能。
COSMo の成果:
- オープンセット複数ターゲットドメイン適応 (OSMTDA) への対応: COSMo は OSMTDA に対応する初の技術。
- 従来手法を凌駕する性能: 既存手法と比較して、複数のデータセットで平均 5.1% の精度向上を実現。
結論: COSMo は、現実世界により近い複雑な状況においても有効な、より汎用性の高い画像認識手法と言える。

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

domain-generalization
open-set-recognition
paper-implementation

fulfulggg / Information-gathering