Open fulfulggg opened 1 month ago
現在のテキスト-ビデオ検索手法は、主にクエリとビデオ間のクロスモーダルマッチングに依存して、類似度スコアを計算し、そのスコアでソートして検索結果を得ています。この手法は、各候補ビデオとクエリのマッチングを考慮していますが、時間コストが大きく、候補数の増加に伴って顕著に増加します。生成モデルは自然言語処理やコンピュータビジョンでは一般的であり、文書検索ですでに成果を上げていますが、マルチモーダル検索への応用はまだ未開拓です。本稿では、検索効率を高めるために、T2VIndexerというモデルベースのビデオインデクサーを提案します。これは、ビデオ識別子を直接生成し、一定の時間計算量で候補ビデオを検索する、系列対系列の生成モデルです。T2VIndexerは、高い精度を維持しながら検索時間を短縮することを目的としています。この目標を達成するために、ビデオ識別子のエンコーディングと、クエリ識別子のaugmentationというアプローチを提案し、ビデオの意味情報を保持しながら、短いシーケンスとして表現します。提案手法は、4つの標準データセットにおいて、最新モデルの検索効率を一貫して向上させます。MSR-VTT (+1.0%)、MSVD (+1.8%)、ActivityNet (+1.5%)、DiDeMo (+0.2%) では、元の検索時間のわずか30%-50%で、より優れた検索性能を達成することができました。コードはhttps://github.com/Lilidamowang/T2VIndexer-generativeSearch. で公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: T2VIndexer: 効率的なテキスト-動画検索のための生成的動画インデクサー
リンク: https://arxiv.org/abs/2408.11432
概要:
現在のテキスト-ビデオ検索手法は、主にクエリとビデオ間のクロスモーダルマッチングに依存して、類似度スコアを計算し、そのスコアでソートして検索結果を得ています。この手法は、各候補ビデオとクエリのマッチングを考慮していますが、時間コストが大きく、候補数の増加に伴って顕著に増加します。生成モデルは自然言語処理やコンピュータビジョンでは一般的であり、文書検索ですでに成果を上げていますが、マルチモーダル検索への応用はまだ未開拓です。本稿では、検索効率を高めるために、T2VIndexerというモデルベースのビデオインデクサーを提案します。これは、ビデオ識別子を直接生成し、一定の時間計算量で候補ビデオを検索する、系列対系列の生成モデルです。T2VIndexerは、高い精度を維持しながら検索時間を短縮することを目的としています。この目標を達成するために、ビデオ識別子のエンコーディングと、クエリ識別子のaugmentationというアプローチを提案し、ビデオの意味情報を保持しながら、短いシーケンスとして表現します。提案手法は、4つの標準データセットにおいて、最新モデルの検索効率を一貫して向上させます。MSR-VTT (+1.0%)、MSVD (+1.8%)、ActivityNet (+1.5%)、DiDeMo (+0.2%) では、元の検索時間のわずか30%-50%で、より優れた検索性能を達成することができました。コードはhttps://github.com/Lilidamowang/T2VIndexer-generativeSearch. で公開されています。