Open fulfulggg opened 1 month ago
arXiv:2409.04817v1 発表タイプ: 新規 概要: 落書きによる顕著物体検出 (SSSOD) は、まばらな落書きラベルの監督の下、周囲から魅力的な物体をセグメント化する能力を構築します。より良いセグメンテーションのために、深度および熱赤外線モダリティは、複雑なシーンにおけるRGB画像の補足として機能します。既存の方法は、RGB、RGB-深度、RGB-熱、および視覚-深度-熱画像入力それぞれに、さまざまな特徴抽出とマルチモーダル融合戦略を特別に設計しており、同様のモデルの洪水を引き起こしています。最近提案されたセグメント・エニシング・モデル (SAM) は、並外れたセグメンテーションと迅速な対話機能を備えているため、SAMに基づくSSSODファミリーであるSSFamを提案し、異なるモダリティを持つ組み合わせ入力に利用します。まず、異なるモーダル対応モジュレータを設計し、モーダル固有の知識を取得します。これは、より優れた特徴アンサンブルのために、フリーズされたSAMエンコーダから抽出されたモーダルにとらわれない情報と連携します。次に、シャムデコーダを調整して、落書きプロンプトを使用したトレーニングとプロンプトなしのテストの間のギャップを埋め、デコード能力を強化します。私たちのモデルは、異なるモダリティの組み合わせの中で優れたパフォーマンスを示し、落書きによる教師あり手法の最高レベルを刷新し、完全に教師ありの手法に匹敵します。 https://github.com/liuzywen/SSFam
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
背景
提案手法: SSFam
成果
結論
タイトル: SSFam:落書きで教師あり顕著物体検出ファミリー
リンク: https://arxiv.org/abs/2409.04817
概要:
arXiv:2409.04817v1 発表タイプ: 新規 概要: 落書きによる顕著物体検出 (SSSOD) は、まばらな落書きラベルの監督の下、周囲から魅力的な物体をセグメント化する能力を構築します。より良いセグメンテーションのために、深度および熱赤外線モダリティは、複雑なシーンにおけるRGB画像の補足として機能します。既存の方法は、RGB、RGB-深度、RGB-熱、および視覚-深度-熱画像入力それぞれに、さまざまな特徴抽出とマルチモーダル融合戦略を特別に設計しており、同様のモデルの洪水を引き起こしています。最近提案されたセグメント・エニシング・モデル (SAM) は、並外れたセグメンテーションと迅速な対話機能を備えているため、SAMに基づくSSSODファミリーであるSSFamを提案し、異なるモダリティを持つ組み合わせ入力に利用します。まず、異なるモーダル対応モジュレータを設計し、モーダル固有の知識を取得します。これは、より優れた特徴アンサンブルのために、フリーズされたSAMエンコーダから抽出されたモーダルにとらわれない情報と連携します。次に、シャムデコーダを調整して、落書きプロンプトを使用したトレーニングとプロンプトなしのテストの間のギャップを埋め、デコード能力を強化します。私たちのモデルは、異なるモダリティの組み合わせの中で優れたパフォーマンスを示し、落書きによる教師あり手法の最高レベルを刷新し、完全に教師ありの手法に匹敵します。 https://github.com/liuzywen/SSFam