AVID: ビデオ拡散モデルの世界モデルへの適応

fulfulggg commented 5 hours ago

タイトル: AVID: ビデオ拡散モデルの世界モデルへの適応

リンク: https://arxiv.org/abs/2410.12822

概要:

大規模生成モデルは、多くの分野で目覚ましい成功を収めてきました。しかし、ロボット工学などの連続意思決定問題では、行動ラベル付きデータが不足していることが多く、意思決定のための基盤モデルのスケールアップは依然として課題となっています。解決策の一つとして、広く入手可能なラベルなし動画を活用し、行動の結果をシミュレートするワールドモデルを学習することが考えられます。ワールドモデルが正確であれば、それを用いて下流タスクにおける意思決定を最適化できます。画像から動画への拡散モデルは、すでに非常にリアルな合成動画を生成することができます。しかし、これらのモデルは行動条件付きではなく、最も強力なモデルはクローズドソースであるため、ファインチューニングができません。本研究では、事前学習済みの動画拡散モデルを、事前学習済みモデルのパラメータにアクセスすることなく、行動条件付きワールドモデルに適応させることを提案します。私たちのアプローチであるAVIDは、行動ラベル付き動画の小さなドメイン固有データセットを用いてアダプタを学習します。AVIDは、学習済みマスクを用いて、事前学習済みモデルの中間出力を修正し、正確な行動条件付き動画を生成します。ビデオゲームと現実世界のロボット工学データを用いてAVIDを評価し、拡散モデルの適応に関する既存のベースラインを上回ることを示します。私たちの結果は、適切に使用すれば、事前学習済みの動画モデルが、エンボディドAIのための強力なツールとなる可能性を示しています。

fulfulggg commented 5 hours ago

論文要約

論文要約: AVID: ビデオ拡散モデルの世界モデルへの適応

背景: ロボット工学などの分野では、行動の学習に大量のデータが必要となるが、現実世界で収集するには限界がある。そこで、ラベルなし動画データから学習する「ワールドモデル」が注目されている。
課題: 高精度な動画生成が可能な拡散モデルは、行動のラベル付けがなく、また巨大すぎてロボット制御のためのファインチューニングが難しい。
提案手法 (AVID): 事前学習済みの動画拡散モデルに、行動ラベル付きの少量データで学習したアダプターを導入。アダプターは、学習済みマスクを用いて拡散モデルの中間出力を修正することで、行動条件付きの動画生成を可能にする。
利点:
- 事前学習済みモデルの巨大なデータと表現力を活用できる。
- ファインチューニングが不要で、計算コストを抑えられる。
結果: ビデオゲームと現実世界のロボットデータを用いた実験で、既存手法を上回る精度を達成。
結論: AVIDは、事前学習済み動画拡散モデルをロボット制御などのタスクに活用するための有効な手法となる。

fulfulggg commented 5 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

diffusion-models
video-generation
robotics

fulfulggg / Information-gathering