fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

小規模データに対応する大規模モデル:クロスモーダルRF人間行動認識のための基盤モデル #586

Open fulfulggg opened 6 days ago

fulfulggg commented 6 days ago

タイトル: 小規模データに対応する大規模モデル:クロスモーダルRF人間行動認識のための基盤モデル

リンク: https://arxiv.org/abs/2410.19766

概要:

無線周波数(RF)を用いた行動認識(HAR)は、コンピュータビジョンを必要とする手法が適用できない場面での有望なソリューションとして注目されています。しかし、RFデータは解釈が難しいため、ラベル付きデータの不足が大きな課題となっています。近年の基盤モデル(FM)の飛躍的な進歩により、ラベルなしの視覚データから深い意味的洞察を抽出することが可能になりましたが、これらのビジョンベースのFMは、小規模なRFデータセットに適用した場合には性能が低下します。このギャップを埋めるため、ビジョンベースのFMの知識を活用してRFベースのHARシステムを強化する革新的なクロスモーダルフレームワーク、FM-Fiを提案します。FM-Fiは、新規のクロスモーダル対照的知識蒸留メカニズムを採用し、RFエンコーダがFMの解釈力を継承することでゼロショット学習を可能にします。また、FMとRFの固有の能力を用いて無関係な特徴を除去し、2つのモダリティ間の整合性を向上させます。さらに、メトリックベースの少数ショット学習技術によりフレームワークを改良し、定義済みのHARタスクの性能向上を目指します。包括的な評価により、FM-Fiはビジョンベースの手法に匹敵する有効性を示し、様々な環境におけるFM-Fiの汎化性能を実証しました。

fulfulggg commented 6 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 6 days ago

論文要約

論文要約: 小規模データに対応する大規模モデル:クロスモーダルRF人間行動認識のための基盤モデル

問題点

提案手法: FM-Fi

FM-Fiの仕組み

  1. クロスモーダル対照的知識蒸留: 画像認識の基盤モデルの知識をRFデータの分析に利用し、少ないデータでも学習を可能にする(ゼロショット学習)。
  2. 無関係な特徴の除去: 画像とRFデータの両方を使って、行動認識に関係ない特徴を排除し、データの整合性を向上させる。
  3. メトリックベースの少数ショット学習: 定義済みの行動認識タスクにおいて、少ないデータでも精度を向上させる技術を採用。

結果と効果