Open fulfulggg opened 1 month ago
無線周波数(RF)を用いた行動認識(HAR)は、コンピュータビジョンを必要とする手法が適用できない場面での有望なソリューションとして注目されています。しかし、RFデータは解釈が難しいため、ラベル付きデータの不足が大きな課題となっています。近年の基盤モデル(FM)の飛躍的な進歩により、ラベルなしの視覚データから深い意味的洞察を抽出することが可能になりましたが、これらのビジョンベースのFMは、小規模なRFデータセットに適用した場合には性能が低下します。このギャップを埋めるため、ビジョンベースのFMの知識を活用してRFベースのHARシステムを強化する革新的なクロスモーダルフレームワーク、FM-Fiを提案します。FM-Fiは、新規のクロスモーダル対照的知識蒸留メカニズムを採用し、RFエンコーダがFMの解釈力を継承することでゼロショット学習を可能にします。また、FMとRFの固有の能力を用いて無関係な特徴を除去し、2つのモダリティ間の整合性を向上させます。さらに、メトリックベースの少数ショット学習技術によりフレームワークを改良し、定義済みのHARタスクの性能向上を目指します。包括的な評価により、FM-Fiはビジョンベースの手法に匹敵する有効性を示し、様々な環境におけるFM-Fiの汎化性能を実証しました。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: 小規模データに対応する大規模モデル:クロスモーダルRF人間行動認識のための基盤モデル
リンク: https://arxiv.org/abs/2410.19766
概要:
無線周波数(RF)を用いた行動認識(HAR)は、コンピュータビジョンを必要とする手法が適用できない場面での有望なソリューションとして注目されています。しかし、RFデータは解釈が難しいため、ラベル付きデータの不足が大きな課題となっています。近年の基盤モデル(FM)の飛躍的な進歩により、ラベルなしの視覚データから深い意味的洞察を抽出することが可能になりましたが、これらのビジョンベースのFMは、小規模なRFデータセットに適用した場合には性能が低下します。このギャップを埋めるため、ビジョンベースのFMの知識を活用してRFベースのHARシステムを強化する革新的なクロスモーダルフレームワーク、FM-Fiを提案します。FM-Fiは、新規のクロスモーダル対照的知識蒸留メカニズムを採用し、RFエンコーダがFMの解釈力を継承することでゼロショット学習を可能にします。また、FMとRFの固有の能力を用いて無関係な特徴を除去し、2つのモダリティ間の整合性を向上させます。さらに、メトリックベースの少数ショット学習技術によりフレームワークを改良し、定義済みのHARタスクの性能向上を目指します。包括的な評価により、FM-Fiはビジョンベースの手法に匹敵する有効性を示し、様々な環境におけるFM-Fiの汎化性能を実証しました。