MVMR：多数の妨害要素に対するビデオモーメント検索の忠実度を評価するための新しいフレームワーク

fulfulggg / Information-gathering

Fusion of Python and GIMP

MIT License

0 stars 0 forks source link

タイトル: MVMR：多数の妨害要素に対するビデオモーメント検索の忠実度を評価するための新しいフレームワーク

リンク: https://arxiv.org/abs/2309.16701

概要:

マルチメディアコンテンツの爆発的な増加に伴い、与えられたテキストクエリに一致するビデオの瞬間を検出することを目的とするビデオモーメント検索（VMR）は、重要な問題として集中的に研究されてきました。しかし、既存のVMRフレームワークは、ビデオが与えられていることを前提としてビデオモーメント検索のパフォーマンスを評価しており、誤って与えられたビデオに対してモデルが過剰な自信を示しているかどうかを明らかにできない可能性があります。本論文では、VMRモデルの信頼性を評価するために、複数の distractor を含む大規模なビデオセット内からビデオモーメントを検索することを目的としたMVMR（Massive Videos Moment Retrieval for Faithfulness Evaluation）タスクを提案します。このタスクのために、テキストおよび視覚的な意味距離検証方法を用いて、ネガティブ（distractor）およびポジティブ（false-negative）なビデオセットを分類する、自動化された大規模ビデオプール構築フレームワークを提案します。これらの方法を用いて既存のVMRデータセットを拡張し、新たに3つの実用的なMVMRデータセットを構築しました。このタスクを解決するために、2つの対照学習メカニズム：（1）弱教師あり潜在ネガティブ学習と（2）クロスディレクショナルハードネガティブ学習を採用した、強力な情報量を持つサンプル重み付き学習方法であるCroCsをさらに提案します。MVMRデータセットを用いた実験結果から、既存のVMRモデルは誤情報（distractor）に惑わされやすいのに対し、我々のモデルは非常にロバストな性能を示し、distractor に対してポジティブなモーメントを区別するためにCroCsが不可欠であることを示しています。我々のコードとデータセットは、https://github.com/yny0506/Massive-Videos-Moment-Retrieval で公開されています。

論文要約: MVMR：多数の妨害要素に対するビデオモーメント検索の忠実度を評価するための新しいフレームワーク

この論文では、従来のビデオモーメント検索(VMR)システムが抱える、誤ったビデオ入力に対する過剰な自信という問題に対処するため、新たな評価基準 MVMR (Massive Videos Moment Retrieval for Faithfulness Evaluation) を提案しています。

従来の問題点:

従来のVMRシステムは、正解ビデオが入力として与えられることを前提としており、誤ったビデオ入力に対する評価が不十分でした。

MVMR の提案:

多数の妨害要素(distractor)を含む大規模なビデオデータセットから、テキストクエリに合致する瞬間を検索するタスクを定義。

テキストおよび視覚的な意味距離検証を用いて、妨害要素を含むネガティブビデオセットと、誤検出(false-negative)を含むポジティブビデオセットを自動構築するフレームワークを開発。

既存のVMRデータセットを拡張し、新たに3つの実用的なMVMRデータセットを構築。

CroCs モデルの提案:

MVMRタスクを解決するために、妨害要素への耐性を高める対照学習に基づく学習方法 CroCs (Contrastive Representation Optimization with Cross-modal Supervision) を提案。

弱教師あり潜在ネガティブ学習
クロスディレクショナルハードネガティブ学習

実験結果:

既存のVMRモデルは妨害要素に弱い一方、CroCsは高いロバスト性を示し、妨害要素と真の検索結果を区別する上で有効であることが示されました。

貢献:

VMRシステムの信頼性評価という新たな課題を提示。

新たな評価データセットと、妨害要素にロバストな学習方法を開発。

fulfulggg / Information-gathering