fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価 #574

Open fulfulggg opened 1 hour ago

fulfulggg commented 1 hour ago

タイトル: VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価

リンク: https://arxiv.org/abs/2410.19100

概要:

動画は、テキストや静止画像だけでは得られない情報を、タスクを完了するために学習したり抽出したりするためにしばしば使用されます。しかし、既存のエージェントベンチマークの多くは、テキストや静止画像入力を重視するあまり、長文脈の動画理解を軽視しています。このギャップを埋めるために、動画理解のための長文脈マルチモーダルエージェントの能力を評価するためのベンチマークであるVideoWebArena(VideoWA)を紹介します。VideoWAは、合計約4時間のコンテンツとなる、手動で作成された動画チュートリアルに基づく2,021のウェブエージェントタスクで構成されています。私たちのベンチマークでは、スキル保持と事実保持という2つの主要な重点分野を持つ、長文脈動画ベースのエージェントタスクの分類を定義します。スキル保持タスクは、エージェントが与えられた人間のデモンストレーションを使用してタスクを効率的に完了できるかどうかを評価するのに対し、事実保持タスクは、エージェントが動画から指示に関連する情報を取得してタスクを完了できるかどうかを評価します。その結果、最良のモデルでも、事実保持タスクでは13.3%、事実保持QAペアでは45.8%の成功率にと留まり、それぞれ73.9%と79.3%である人間のパフォーマンスを大きく下回ることがわかりました。スキル保持タスクでは、長文脈モデルはチュートリアルがない場合よりもチュートリアルがある場合の方がパフォーマンスが低下し、WebArenaタスクでは5%、VisualWebArenaタスクでは10.3%のパフォーマンス低下が見られました。私たちの研究は、長文脈マルチモーダルモデルのエージェント能力を向上させる必要性を浮き彫りにするとともに、長文脈動画エージェントの将来の開発のためのテストベッドを提供します。

fulfulggg commented 1 hour ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 1 hour ago

論文要約

論文要約: VideoWebArena: 動画理解ウェブタスクを用いた長文文脈マルチモーダルエージェントの評価