Open fulfulggg opened 2 months ago
従来手法の課題: 従来の画像認識技術は、未知のデータが多い現実の場面では、未知のクラスへの対応や複数の異なる環境への適応が困難だった。
COSMo の提案: 本論文では、大規模言語モデル CLIP を活用し、未知のクラスを含む複数の異なる環境に対応できる 新しい画像認識手法 COSMo を提案。
COSMo の仕組み:
COSMo の成果:
結論: COSMo は、現実世界により近い複雑な状況においても有効な、より汎用性の高い画像認識手法と言える。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: COSMo: オープンセット複数ターゲットドメイン適応におけるCLIPによる対話
リンク: https://arxiv.org/abs/2409.00397
概要:
マルチターゲットドメイン適応 (MTDA) は、単一のソースドメインからドメイン不変の情報を学習し、ラベル付けされていない複数のターゲットドメインに適用することを目的とします。しかし、既存の MTDA 手法は、主に視覚特徴内のドメインシフトへの対処に重点を置いており、セマンティック特徴が見落とされ、未知クラスの処理に苦労することが多く、オープンセット (OS) MTDA と呼ばれる問題が発生します。CLIP のような大規模なビジョン言語基盤モデルは有望ですが、MTDA の可能性はほとんど探求されていません。本稿では、ソースドメインガイド付きプロンプト学習を通じてドメインに依存しないプロンプトを学習し、プロンプト空間における MTDA 問題に取り組む新しい手法である COSMo を紹介します。ドメイン固有のバイアスネットワークと、既知クラスと未知クラスの個別のプロンプトを活用することで、COSMo はドメインとクラスのシフトに効果的に適応します。私たちの知る限り、COSMo はオープンセットマルチターゲット DA (OSMTDA) に対処する最初の方法であり、現実世界のシナリオをより現実的に表現し、オープンセットとマルチターゲット DA の両方の課題に対処します。COSMo は、Mini-DomainNet、Office-31、Office-Home の 3 つの困難なデータセットにおいて、OSMTDA 設定内で動作するように適応された他の関連する DA 手法と比較して、平均 5.1% の改善を示しています。コードは https://github.com/munish30monga/COSMo で入手できます。