Open fulfulggg opened 1 month ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
目的: 画像内の人物がどこを見ているかを特定する「視線ターゲット検出」において、従来手法では大量のラベル付きデータが必要となる問題を解決する。
提案手法: AL-GTD (Active Learning for Gaze Target Detection)
結果:
結論: AL-GTDは、少ないラベル付きデータで高精度な視線ターゲット検出を実現する有効な手法である。
タイトル: AL-GTD: 視線ターゲット検出のための深層アクティブラーニング
リンク: https://arxiv.org/abs/2409.18561
概要:
視線ターゲット検出は、人が見ている画像上の位置を特定することを目的としています。既存の研究では、正確な視線ヒートマップを回帰することでこの分野で大きな進歩を遂げてきましたが、これらの成果は、主に人手に頼った大規模なラベル付きデータセットへのアクセスに依存していました。本論文では、視線ターゲット検出のためのラベル付き訓練データのサイズへの依存を軽減することを目標とします。この目標を達成するために、我々は、アクティブラーニング(AL)を実行するために、新しいサンプル獲得関数内で教師あり損失と自己教師あり損失を統合する革新的なアプローチであるAL-GTDを提案します。さらに、訓練段階での分布のずれを軽減するために、擬似ラベル付けを利用します。AL-GTDは、訓練データの40〜50%のみを利用することで、すべてのAUC結果において最高のものを達成します。これは、最先端(SOTA)の視線ターゲット検出器が、同じ性能を達成するために訓練データセット全体を必要とすることとは対照的です。重要なことに、AL-GTDは、訓練データの10〜20%で迅速に満足のいく性能に達します。これは、最も有益なサンプルを取得できる我々の獲得関数の有効性を示しています。我々は、このタスクに適応させたいくつかのAL手法による包括的な実験的分析を提供します。AL-GTDは、ALの競合他社を凌駕し、同時に、すべてが低データ体制で訓練された場合に、SOTAの視線ターゲット検出器と比較して優れた性能を示します。コードはhttps://github.com/francescotonini/al-gtdで入手できます。