fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

テキスト教師あり一人称視点セマンティックセグメンテーションのための認知転移と分離 #403

Open fulfulggg opened 2 weeks ago

fulfulggg commented 2 weeks ago

タイトル: テキスト教師あり一人称視点セマンティックセグメンテーションのための認知転移と分離

リンク: https://arxiv.org/abs/2410.01341

概要:

本論文では、画像レベルのラベルからテキストによって弱教師ありされた、エゴセントリック画像にピクセルレベルのカテゴリを割り当てることを目的とした、新しいテキスト教師付きエゴセントリックセマンティックセグメンテーション(TESS)タスクを探求します。将来性のあるこのタスクでは、エゴセントリックシーンには、着用者とオブジェクト間の密接な関係や、オブジェクト間の干渉が含まれています。しかし、最近の三人称視点の手法のほとんどは、セマンティック指向の三人称視点データで事前学習され、「関係の不感度」問題のために一人称視点ではうまく機能しない、固定されたContrastive Language-Image Pre-training(CLIP)モデルを活用しています。そこで本論文では、まず画像とテキストを関連付けることで、エゴセントリックな着用者とオブジェクトの関係を学習するCognition Transferring and Decoupling Network (CTDN)を提案します。さらに、大規模な事前学習済みモデルから、さまざまなセマンティクスを持つエゴセントリックオブジェクトを認識するための認知的知識を蒸留するために、Cognition Transferring Module (CTM)を開発しました。転移された認知に基づいて、Foreground-background Decoupling Module (FDM)は、視覚表現を disentangle し、前景と背景の領域を明示的に区別することで、エゴセントリック関係の学習中に前景と背景の干渉オブジェクトによって引き起こされる誤活性化領域を軽減します。4つのTESSベンチマークを用いた広範な実験により、我々のアプローチの有効性が実証され、多くの最近の関連手法を大幅に上回る結果が得られています。コードはhttps://github.com/ZhaofengSHI/CTDNで公開予定です。

fulfulggg commented 2 weeks ago

論文要約

論文要約: テキストから学ぶ「一人称視点」の画像認識

従来の問題点:

提案手法: CTDN (Cognition Transferring and Decoupling Network)

成果:

fulfulggg commented 2 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: