本研究では、動画中のカモフラージュされたオブジェクトのセグメンテーション(VCOS)という困難なタスクにおける、Segment Anything Model 2(SAM2)の適用とパフォーマンスを調査します。VCOSは、周囲の色やテクスチャが類似している、照明条件が悪いなどの理由で、背景に溶け込んで見分けにくいオブジェクトを動画から検出することを目的としています。通常のシーン中のオブジェクトと比較して、カモフラージュされたオブジェクトは検出がはるかに困難です。SAM2は、さまざまなタスクで可能性を示している動画用の基盤モデルですが、動的なカモフラージュシナリオにおける有効性は十分に探求されていません。本研究では、VCOSにおけるSAM2の能力に関する包括的な研究を紹介します。まず、異なるモデルとプロンプト(クリック、ボックス、マスク)を用いて、カモフラージュされた動画データセットに対するSAM2のパフォーマンスを評価します。次に、SAM2と既存のマルチモーダル大規模言語モデル(MLLM)およびVCOS手法との統合を探ります。最後に、動画カモフラージュデータセットでファインチューニングを行うことで、SAM2を特別に適応させます。包括的な実験により、SAM2は動画中のカモフラージュされたオブジェクトを検出する優れたゼロショット能力を持っていることが実証されました。また、VCOS向けにSAM2のパラメータを調整することで、この能力をさらに向上させることができることも示されました。コードはhttps://github.com/zhoustan/SAM2-VCOSで公開予定です。
タイトル: SAM2と動画カモフラージュ物体セグメンテーションの出会い:包括的な評価と適応
リンク: https://arxiv.org/abs/2409.18653
概要:
本研究では、動画中のカモフラージュされたオブジェクトのセグメンテーション(VCOS)という困難なタスクにおける、Segment Anything Model 2(SAM2)の適用とパフォーマンスを調査します。VCOSは、周囲の色やテクスチャが類似している、照明条件が悪いなどの理由で、背景に溶け込んで見分けにくいオブジェクトを動画から検出することを目的としています。通常のシーン中のオブジェクトと比較して、カモフラージュされたオブジェクトは検出がはるかに困難です。SAM2は、さまざまなタスクで可能性を示している動画用の基盤モデルですが、動的なカモフラージュシナリオにおける有効性は十分に探求されていません。本研究では、VCOSにおけるSAM2の能力に関する包括的な研究を紹介します。まず、異なるモデルとプロンプト(クリック、ボックス、マスク)を用いて、カモフラージュされた動画データセットに対するSAM2のパフォーマンスを評価します。次に、SAM2と既存のマルチモーダル大規模言語モデル(MLLM)およびVCOS手法との統合を探ります。最後に、動画カモフラージュデータセットでファインチューニングを行うことで、SAM2を特別に適応させます。包括的な実験により、SAM2は動画中のカモフラージュされたオブジェクトを検出する優れたゼロショット能力を持っていることが実証されました。また、VCOS向けにSAM2のパラメータを調整することで、この能力をさらに向上させることができることも示されました。コードはhttps://github.com/zhoustan/SAM2-VCOSで公開予定です。