fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

VrdONE: ワンステージ動画視覚関係検出 #115

Open fulfulggg opened 2 months ago

fulfulggg commented 2 months ago

タイトル: VrdONE: ワンステージ動画視覚関係検出

リンク: https://arxiv.org/abs/2408.09408

概要:

動画内の視覚関係検出(VidVRD)は、動画内のエンティティが時間と空間を超えてどのように相互作用するかを理解することに焦点を当てています。これは、基本的な視覚タスクを超えて動画シーンをより深く理解するための重要なステップです。従来のVidVRDの手法は、その複雑さのために、通常、タスクを2つの部分に分割していました。1つは存在する関係カテゴリを特定する部分、もう1つはそれらの時間的境界を決定する部分です。この分割では、これらの要素間の本質的なつながりが見落とされています。

さまざまな期間にわたるエンティティペアの時空間的相互作用を認識する必要性に対処するため、合理化されながらも効果的なワンステージモデルであるVrdONEを提案します。VrdONEは、主語と目的語の特徴を組み合わせることで、述語の検出をそれらの組み合わせ表現に対する1次元インスタンスセグメンテーションに変換します。この設定により、関係カテゴリの識別とバイナリマスクの生成の両方を一度に行うことができ、提案の生成や後処理などの追加手順が不要になります。VrdONEは、さまざまなフレーム間での特徴の相互作用を促進し、短命の関係と永続的な関係の両方を適切に捉えます。さらに、主語と目的語が結合する前に互いをどのように認識するかを強化する、主語と目的語の相乗効果(SOS)モジュールを導入します。VrdONEは、VidORベンチマークとImageNet-VidVRDで最先端のパフォーマンスを実現し、異なる時間スケールにわたる関係を識別する優れた能力を示しています。コードは \textcolor[RGB]{228,58,136}{\href{https://github.com/lucaspk512/vrdone}{https://github.com/lucaspk512/vrdone}} で入手できます。

fulfulggg commented 2 months ago

論文要約

論文要約: VrdONE: ワンステージ動画視覚関係検出

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: