VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価

fulfulggg commented 1 hour ago

タイトル: VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価

リンク: https://arxiv.org/abs/2410.19100

概要:

動画は、テキストや静止画像だけでは得られない情報を、タスクを完了するために学習したり抽出したりするためにしばしば使用されます。しかし、既存のエージェントベンチマークの多くは、テキストや静止画像入力を重視するあまり、長文脈の動画理解を軽視しています。このギャップを埋めるために、動画理解のための長文脈マルチモーダルエージェントの能力を評価するためのベンチマークであるVideoWebArena（VideoWA）を紹介します。VideoWAは、合計約4時間のコンテンツとなる、手動で作成された動画チュートリアルに基づく2,021のウェブエージェントタスクで構成されています。私たちのベンチマークでは、スキル保持と事実保持という2つの主要な重点分野を持つ、長文脈動画ベースのエージェントタスクの分類を定義します。スキル保持タスクは、エージェントが与えられた人間のデモンストレーションを使用してタスクを効率的に完了できるかどうかを評価するのに対し、事実保持タスクは、エージェントが動画から指示に関連する情報を取得してタスクを完了できるかどうかを評価します。その結果、最良のモデルでも、事実保持タスクでは13.3%、事実保持QAペアでは45.8%の成功率にと留まり、それぞれ73.9%と79.3%である人間のパフォーマンスを大きく下回ることがわかりました。スキル保持タスクでは、長文脈モデルはチュートリアルがない場合よりもチュートリアルがある場合の方がパフォーマンスが低下し、WebArenaタスクでは5%、VisualWebArenaタスクでは10.3%のパフォーマンス低下が見られました。私たちの研究は、長文脈マルチモーダルモデルのエージェント能力を向上させる必要性を浮き彫りにするとともに、長文脈動画エージェントの将来の開発のためのテストベッドを提供します。

fulfulggg commented 1 hour ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

benchmark
video-understanding
multi-modal-learning

fulfulggg commented 1 hour ago

論文要約

論文要約: VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価

背景: 既存のエージェントベンチマークはテキストや静止画に焦点を当てており、長文脈動画理解を評価できていない。
提案: 長文脈動画理解のためのエージェントベンチマーク "VideoWebArena" (VideoWA) を提案。
- VideoWAは、約4時間の手動作成動画チュートリアルに基づく2,021のウェブエージェントタスクで構成される。
タスク分類:
- スキル保持タスク: 人間のデモンストレーションからタスクを効率的に学習できるかを評価。
- 事実保持タスク: 動画から指示に関連する情報を取得しタスクを完了できるかを評価。
結果:
- 事実保持タスクの成功率は、最良モデルでも13.3%（QAペアでは45.8%）にとどまり、人間（73.9%、QAペアでは79.3%）に大きく劣る。
- スキル保持タスクでは、長文脈モデルはチュートリアルがない場合より、ある場合の方がパフォーマンスが低下した (WebArenaタスクで5%、VisualWebArenaタスクで10.3%低下)。
結論:
- 長文脈マルチモーダルモデルのエージェント能力向上の必要性を示唆。
- VideoWAは、長文脈動画エージェント開発のためのテストベッドとなる。

fulfulggg / Information-gathering