AL-GTD: 視線ターゲット検出のための深層アクティブラーニング

fulfulggg commented 1 month ago

タイトル: AL-GTD: 視線ターゲット検出のための深層アクティブラーニング

リンク: https://arxiv.org/abs/2409.18561

概要:

視線ターゲット検出は、人が見ている画像上の位置を特定することを目的としています。既存の研究では、正確な視線ヒートマップを回帰することでこの分野で大きな進歩を遂げてきましたが、これらの成果は、主に人手に頼った大規模なラベル付きデータセットへのアクセスに依存していました。本論文では、視線ターゲット検出のためのラベル付き訓練データのサイズへの依存を軽減することを目標とします。この目標を達成するために、我々は、アクティブラーニング（AL）を実行するために、新しいサンプル獲得関数内で教師あり損失と自己教師あり損失を統合する革新的なアプローチであるAL-GTDを提案します。さらに、訓練段階での分布のずれを軽減するために、擬似ラベル付けを利用します。AL-GTDは、訓練データの40〜50%のみを利用することで、すべてのAUC結果において最高のものを達成します。これは、最先端（SOTA）の視線ターゲット検出器が、同じ性能を達成するために訓練データセット全体を必要とすることとは対照的です。重要なことに、AL-GTDは、訓練データの10〜20%で迅速に満足のいく性能に達します。これは、最も有益なサンプルを取得できる我々の獲得関数の有効性を示しています。我々は、このタスクに適応させたいくつかのAL手法による包括的な実験的分析を提供します。AL-GTDは、ALの競合他社を凌駕し、同時に、すべてが低データ体制で訓練された場合に、SOTAの視線ターゲット検出器と比較して優れた性能を示します。コードはhttps://github.com/francescotonini/al-gtdで入手できます。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

active-learning
eye-tracking
few-shot-learning

以下の新しいラベルが作成され、適用されました：

active-learning

fulfulggg commented 1 month ago

論文要約

論文要約: AL-GTD: 視線ターゲット検出のための深層アクティブラーニング

目的: 画像内の人物がどこを見ているかを特定する「視線ターゲット検出」において、従来手法では大量のラベル付きデータが必要となる問題を解決する。
提案手法: AL-GTD (Active Learning for Gaze Target Detection)
- ラベル付けされていないデータから学習に有効なデータを選択するアクティブラーニングを採用。
- 教師あり学習と自己教師あり学習を組み合わせた新たなサンプル獲得関数を開発し、効率的に学習データを選択。
- 選択したデータに擬似的なラベルを付与することで、学習データ不足による精度低下を抑制。
結果:
- 従来手法と比較して、40〜50%のデータ量で同等以上の精度を達成。
- データ量10〜20%という少量でも実用的な精度を達成。
- 他のアクティブラーニング手法と比較しても優れた性能を発揮。
結論: AL-GTDは、少ないラベル付きデータで高精度な視線ターゲット検出を実現する有効な手法である。

fulfulggg / Information-gathering