Open fulfulggg opened 3 weeks ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
従来の画像のみを用いたキーポイント検出では、奥行き情報が不足しているため、背景に誤ってキーポイントを検出してしまう問題がありました。
本論文では、この問題を解決するために、深度情報を活用した新しい自己教師ありキーポイント検出フレームワーク Distill-DKP を提案しています。
Distill-DKPの特徴
結論
Distill-DKPは、深度情報を利用することで、従来手法よりも高精度なキーポイント検出を実現できることを示しました。
タイトル: 蒸留された深度キーポイント表現を用いた自己教師ありキーポイント検出
リンク: https://arxiv.org/abs/2410.14700
概要:
既存の教師なしキーポイント検出手法は、画像の大部分をマスクする、元の画像の再構成を学習目標として使用してキーポイントを検出するなど、画像に人為的な変形を適用します。しかし、このアプローチは画像の奥行き情報に欠けており、背景にキーポイントを検出してしまうことがよくあります。この問題に対処するため、本研究では、自己教師あり設定でキーポイント検出を行うために、深度マップとRGB画像を活用した新しいクロスモーダル知識蒸留フレームワークであるDistill-DKPを提案します。トレーニング中、Distill-DKPは、深度ベースの教師モデルから埋め込みレベルの知識を抽出し、推論を生徒に限定した画像ベースの生徒モデルをガイドします。実験の結果、Distill-DKPは、Human3.6Mの平均L2誤差を47.15%削減し、Taichiの平均平均誤差を5.67%削減し、DeepFashionデータセットのキーポイント精度を1.3%向上させるなど、従来の教師なし手法を大幅に上回る性能を示しました。詳細なアブレーション研究により、ネットワークの異なる層における知識蒸留の感度を実証しました。プロジェクトページ: https://23wm13.github.io/distill-dkp/