Open fulfulggg opened 1 month ago
拡散確率モデルは、その優れた性能により、コンピュータビジョン分野で近年大きな注目を集めています。しかし、拡散モデルに基づく研究の大部分は生成タスクに焦点を当てており、ポリープの高いカモフラージュ性と冗長な時間的特徴によって課題が多い、ビデオ内のポリープセグメンテーションの結果を向上させるために拡散モデルを導入した研究はありません。本稿では、ビデオポリープセグメンテーションタスクのための新しい拡散ベースのネットワークであるDiff-VPSを提案します。拡散モデルにマルチタスク監視を組み込み、ピクセル単位のセグメンテーションにおける拡散モデルの識別能力を高めます。これは、共同分類タスクと検出タスクによって達成されるコンテキストの高レベル情報を統合します。時間的依存性を探索するために、前のフレームからターゲットフレームを推論および再構成することにより、時間的推論モジュール(TRM)を考案しました。さらに、よりリアルなフレームを生成し、より優れた動的特徴を捉えるために、TRMに生成的敵対的自己教師あり戦略を装備しました。SUN-SEGで大規模な実験を行い、その結果、提案するDiff-VPSが最先端の性能を達成することを確認しました。コードはhttps://github.com/lydia-yllu/Diff-VPSで公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
この論文では、動画からポリープをセグメンテーション(切り出し) するための新しい手法 Diff-VPS を提案しています。
Diff-VPSの特徴:
結果:
要点:
医療分野への応用:
タイトル: Diff-VPS: 敵対的時系列推論を用いたマルチタスク拡散ネットワークによる動画ポリープセグメンテーション
リンク: https://arxiv.org/abs/2409.07238
概要:
拡散確率モデルは、その優れた性能により、コンピュータビジョン分野で近年大きな注目を集めています。しかし、拡散モデルに基づく研究の大部分は生成タスクに焦点を当てており、ポリープの高いカモフラージュ性と冗長な時間的特徴によって課題が多い、ビデオ内のポリープセグメンテーションの結果を向上させるために拡散モデルを導入した研究はありません。本稿では、ビデオポリープセグメンテーションタスクのための新しい拡散ベースのネットワークであるDiff-VPSを提案します。拡散モデルにマルチタスク監視を組み込み、ピクセル単位のセグメンテーションにおける拡散モデルの識別能力を高めます。これは、共同分類タスクと検出タスクによって達成されるコンテキストの高レベル情報を統合します。時間的依存性を探索するために、前のフレームからターゲットフレームを推論および再構成することにより、時間的推論モジュール(TRM)を考案しました。さらに、よりリアルなフレームを生成し、より優れた動的特徴を捉えるために、TRMに生成的敵対的自己教師あり戦略を装備しました。SUN-SEGで大規模な実験を行い、その結果、提案するDiff-VPSが最先端の性能を達成することを確認しました。コードはhttps://github.com/lydia-yllu/Diff-VPSで公開されています。