テキストベース動画質問応答のためのシーンテキストグラウンディング

fulfulggg commented 2 months ago

タイトル: テキストベース動画質問応答のためのシーンテキストグラウンディング

リンク: https://arxiv.org/abs/2409.14319

概要:

既存のテキストベース動画質問応答（TextVideoQA）は、その意思決定過程が不透明で、シーンテキスト認識に過度に依存しているという批判があります。本稿では、モデルに質問に答えさせると同時に、関連するシーンテキスト領域を時空間的に特定させることで、QAをシーンテキスト認識から切り離し、解釈可能なQAの研究を促進する、Grounded TextVideoQAを提案します。

このタスクには、3つの重要な意義があります。第一に、回答予測のために、他の近道ではなく、シーンテキストに基づいた推論を促します。第二に、シーンテキスト領域を視覚的な回答として直接受け入れるため、厳密な文字列照合による非効率な回答評価の問題を回避できます。第三に、VideoQAとシーンテキスト認識に固有の課題を分離します。これにより、誤った予測の根本原因、例えば、QAの誤りか、シーンテキスト認識の誤りかを診断することができます。

Grounded TextVideoQAを実現するために、本稿では、教師データが少ないシーンテキストのグラウンディングとGrounded TextVideoQAのために、分離された時間-空間対照学習戦略を特徴とするT2S-QAモデルを提案します。評価を容易にするために、2,000の質問と729本の動画に関連する2,200の時間セグメント内の52,000のシーンテキストバウンディングボックスを特徴とする、新しいデータセットViTXT-GQAを構築しました。ViTXT-GQAを用いて、広範な実験を行い、Grounded TextVideoQAにおける既存の手法の深刻な限界を示しました。T2S-QAは優れた結果を達成していますが、人間との間にはまだ大きな性能差があり、改善の余地が十分にあります。さらに、シーンテキスト入力の分析から、主な課題はシーンテキスト認識であることがわかりました。Grounded TextVideoQAの研究を推進するために、データセットとコードを\url{https://github.com/zhousheng97/ViTXT-GQA.git}で公開しています。

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

dataset
text-recognition
video-understanding

fulfulggg commented 2 months ago

論文要約

論文要約: テキストベース動画質問応答のためのシーンテキストグラウンディング

従来の動画の内容に関するテキスト質問応答システムは、回答の根拠が不明確で、動画内の文字認識の精度に過度に依存していました。

本論文では、Grounded TextVideoQAという新しいタスクを提案します。これは、質問に対する回答に加えて、回答の根拠となる動画内の文字領域を明示的に特定することを求めるものです。

利点:

回答の根拠が明確になり、システムの解釈性が向上する
従来の文字列ベースの評価よりも正確な、視覚的な回答評価が可能になる
質問応答と文字認識の課題を分離し、問題点の分析を容易にする

提案手法:

T2S-QAモデル: 教師データが少ない状況でも効果的な、シーンテキストグラウンディングとGrounded TextVideoQAのための新しいモデル

新規データセット:

ViTXT-GQA: 2,000の質問、729本の動画、52,000の文字領域のアノテーションを含む、Grounded TextVideoQAのための新しいデータセット

実験結果:

従来手法はGrounded TextVideoQAにおいて大きな性能低下を示した
T2S-QAは優れた結果を示したが、人間レベルの性能にはまだ達していない
性能向上には、文字認識精度の向上が重要であることが示唆された

貢献:

Grounded TextVideoQAという新しいタスクの提案
T2S-QAモデルとViTXT-GQAデータセットの開発
Grounded TextVideoQAの今後の研究のための基盤の構築

コードとデータセット: https://github.com/zhousheng97/ViTXT-GQA.git

fulfulggg / Information-gathering