小規模データに対応する大規模モデル：クロスモーダルRF人間行動認識のための基盤モデル

fulfulggg commented 6 days ago

タイトル: 小規模データに対応する大規模モデル：クロスモーダルRF人間行動認識のための基盤モデル

リンク: https://arxiv.org/abs/2410.19766

概要:

無線周波数（RF）を用いた行動認識（HAR）は、コンピュータビジョンを必要とする手法が適用できない場面での有望なソリューションとして注目されています。しかし、RFデータは解釈が難しいため、ラベル付きデータの不足が大きな課題となっています。近年の基盤モデル（FM）の飛躍的な進歩により、ラベルなしの視覚データから深い意味的洞察を抽出することが可能になりましたが、これらのビジョンベースのFMは、小規模なRFデータセットに適用した場合には性能が低下します。このギャップを埋めるため、ビジョンベースのFMの知識を活用してRFベースのHARシステムを強化する革新的なクロスモーダルフレームワーク、FM-Fiを提案します。FM-Fiは、新規のクロスモーダル対照的知識蒸留メカニズムを採用し、RFエンコーダがFMの解釈力を継承することでゼロショット学習を可能にします。また、FMとRFの固有の能力を用いて無関係な特徴を除去し、2つのモダリティ間の整合性を向上させます。さらに、メトリックベースの少数ショット学習技術によりフレームワークを改良し、定義済みのHARタスクの性能向上を目指します。包括的な評価により、FM-Fiはビジョンベースの手法に匹敵する有効性を示し、様々な環境におけるFM-Fiの汎化性能を実証しました。

fulfulggg commented 6 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

action-recognition
few-shot-learning
zero-shot-learning

fulfulggg commented 6 days ago

論文要約

論文要約: 小規模データに対応する大規模モデル：クロスモーダルRF人間行動認識のための基盤モデル

問題点

無線周波数（RF）を使った行動認識は、カメラ不要で有望だが、RFデータの解釈が難しく、学習データ不足が課題。
画像認識で成功している「基盤モデル」は、大量のデータを使うため、小規模なRFデータには適さない。

提案手法: FM-Fi

画像認識の基盤モデルの知識を活用し、RFを用いた行動認識を強化するクロスモーダルなフレームワーク。

FM-Fiの仕組み

クロスモーダル対照的知識蒸留: 画像認識の基盤モデルの知識をRFデータの分析に利用し、少ないデータでも学習を可能にする（ゼロショット学習）。
無関係な特徴の除去: 画像とRFデータの両方を使って、行動認識に関係ない特徴を排除し、データの整合性を向上させる。
メトリックベースの少数ショット学習: 定義済みの行動認識タスクにおいて、少ないデータでも精度を向上させる技術を採用。

結果と効果

FM-Fiは従来の画像認識ベースの手法に匹敵する精度を達成。
様々な環境においても有効性が確認され、汎用性の高さが示された。

fulfulggg / Information-gathering