Open fulfulggg opened 2 months ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
従来の動画の内容に関するテキスト質問応答システムは、回答の根拠が不明確で、動画内の文字認識の精度に過度に依存していました。
本論文では、Grounded TextVideoQAという新しいタスクを提案します。これは、質問に対する回答に加えて、回答の根拠となる動画内の文字領域を明示的に特定することを求めるものです。
利点:
提案手法:
新規データセット:
実験結果:
貢献:
コードとデータセット: https://github.com/zhousheng97/ViTXT-GQA.git
タイトル: テキストベース動画質問応答のためのシーンテキストグラウンディング
リンク: https://arxiv.org/abs/2409.14319
概要:
既存のテキストベース動画質問応答(TextVideoQA)は、その意思決定過程が不透明で、シーンテキスト認識に過度に依存しているという批判があります。本稿では、モデルに質問に答えさせると同時に、関連するシーンテキスト領域を時空間的に特定させることで、QAをシーンテキスト認識から切り離し、解釈可能なQAの研究を促進する、Grounded TextVideoQAを提案します。
このタスクには、3つの重要な意義があります。第一に、回答予測のために、他の近道ではなく、シーンテキストに基づいた推論を促します。第二に、シーンテキスト領域を視覚的な回答として直接受け入れるため、厳密な文字列照合による非効率な回答評価の問題を回避できます。第三に、VideoQAとシーンテキスト認識に固有の課題を分離します。これにより、誤った予測の根本原因、例えば、QAの誤りか、シーンテキスト認識の誤りかを診断することができます。
Grounded TextVideoQAを実現するために、本稿では、教師データが少ないシーンテキストのグラウンディングとGrounded TextVideoQAのために、分離された時間-空間対照学習戦略を特徴とするT2S-QAモデルを提案します。評価を容易にするために、2,000の質問と729本の動画に関連する2,200の時間セグメント内の52,000のシーンテキストバウンディングボックスを特徴とする、新しいデータセットViTXT-GQAを構築しました。ViTXT-GQAを用いて、広範な実験を行い、Grounded TextVideoQAにおける既存の手法の深刻な限界を示しました。T2S-QAは優れた結果を達成していますが、人間との間にはまだ大きな性能差があり、改善の余地が十分にあります。さらに、シーンテキスト入力の分析から、主な課題はシーンテキスト認識であることがわかりました。Grounded TextVideoQAの研究を推進するために、データセットとコードを\url{https://github.com/zhousheng97/ViTXT-GQA.git}で公開しています。