テキスト教師あり一人称視点セマンティックセグメンテーションのための認知転移と分離

fulfulggg commented 2 weeks ago

タイトル: テキスト教師あり一人称視点セマンティックセグメンテーションのための認知転移と分離

リンク: https://arxiv.org/abs/2410.01341

概要:

本論文では、画像レベルのラベルからテキストによって弱教師ありされた、エゴセントリック画像にピクセルレベルのカテゴリを割り当てることを目的とした、新しいテキスト教師付きエゴセントリックセマンティックセグメンテーション（TESS）タスクを探求します。将来性のあるこのタスクでは、エゴセントリックシーンには、着用者とオブジェクト間の密接な関係や、オブジェクト間の干渉が含まれています。しかし、最近の三人称視点の手法のほとんどは、セマンティック指向の三人称視点データで事前学習され、「関係の不感度」問題のために一人称視点ではうまく機能しない、固定されたContrastive Language-Image Pre-training（CLIP）モデルを活用しています。そこで本論文では、まず画像とテキストを関連付けることで、エゴセントリックな着用者とオブジェクトの関係を学習するCognition Transferring and Decoupling Network (CTDN)を提案します。さらに、大規模な事前学習済みモデルから、さまざまなセマンティクスを持つエゴセントリックオブジェクトを認識するための認知的知識を蒸留するために、Cognition Transferring Module (CTM)を開発しました。転移された認知に基づいて、Foreground-background Decoupling Module (FDM)は、視覚表現を disentangle し、前景と背景の領域を明示的に区別することで、エゴセントリック関係の学習中に前景と背景の干渉オブジェクトによって引き起こされる誤活性化領域を軽減します。4つのTESSベンチマークを用いた広範な実験により、我々のアプローチの有効性が実証され、多くの最近の関連手法を大幅に上回る結果が得られています。コードはhttps://github.com/ZhaofengSHI/CTDNで公開予定です。

fulfulggg commented 2 weeks ago

論文要約

論文要約: テキストから学ぶ「一人称視点」の画像認識

従来の問題点:

従来の画像認識AIは、三人称視点のデータで学習するため、一人称視点の画像ではうまく機能しない。
- 例: カメラを持っている人が「コップ」を持っている画像を認識する際に、従来のAIは「手」と「コップ」の関係性を理解できず、誤認識する可能性がある。

提案手法: CTDN (Cognition Transferring and Decoupling Network)

テキスト情報を利用: 画像とテキストの関連性を利用して、一人称視点特有の「人物」と「物体」の関係性を学習する。
CTM (Cognition Transferring Module): 既存のAIモデルから、一人称視点の物体認識に必要な知識を抽出する。
FDM (Foreground-background Decoupling Module): 前景と背景を分離することで、誤認識を減らす。
- 例: 「手」と「コップ」を分離して認識することで、関係性を正しく理解する。

成果:

4つのベンチマークデータセットにおいて、従来手法を上回る精度を達成。
一人称視点画像の認識における、新たな可能性を示唆。

fulfulggg commented 2 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

image-segmentation
weak-supervised-learning
text-to-image

fulfulggg / Information-gathering