Open fulfulggg opened 2 months ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
この論文では、従来のビデオモーメント検索(VMR)システムが抱える、誤ったビデオ入力に対する過剰な自信という問題に対処するため、新たな評価基準 MVMR (Massive Videos Moment Retrieval for Faithfulness Evaluation) を提案しています。
従来の問題点:
MVMR の提案:
CroCs モデルの提案:
実験結果:
貢献:
コードとデータセット: https://github.com/yny0506/Massive-Videos-Moment-Retrieval
タイトル: MVMR:多数の妨害要素に対するビデオモーメント検索の忠実度を評価するための新しいフレームワーク
リンク: https://arxiv.org/abs/2309.16701
概要:
マルチメディアコンテンツの爆発的な増加に伴い、与えられたテキストクエリに一致するビデオの瞬間を検出することを目的とするビデオモーメント検索(VMR)は、重要な問題として集中的に研究されてきました。しかし、既存のVMRフレームワークは、ビデオが与えられていることを前提としてビデオモーメント検索のパフォーマンスを評価しており、誤って与えられたビデオに対してモデルが過剰な自信を示しているかどうかを明らかにできない可能性があります。本論文では、VMRモデルの信頼性を評価するために、複数の distractor を含む大規模なビデオセット内からビデオモーメントを検索することを目的としたMVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案します。このタスクのために、テキストおよび視覚的な意味距離検証方法を用いて、ネガティブ(distractor)およびポジティブ(false-negative)なビデオセットを分類する、自動化された大規模ビデオプール構築フレームワークを提案します。これらの方法を用いて既存のVMRデータセットを拡張し、新たに3つの実用的なMVMRデータセットを構築しました。このタスクを解決するために、2つの対照学習メカニズム:(1)弱教師あり潜在ネガティブ学習と(2)クロスディレクショナルハードネガティブ学習を採用した、強力な情報量を持つサンプル重み付き学習方法であるCroCsをさらに提案します。MVMRデータセットを用いた実験結果から、既存のVMRモデルは誤情報(distractor)に惑わされやすいのに対し、我々のモデルは非常にロバストな性能を示し、distractor に対してポジティブなモーメントを区別するためにCroCsが不可欠であることを示しています。我々のコードとデータセットは、https://github.com/yny0506/Massive-Videos-Moment-Retrieval で公開されています。