fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

AVID: ビデオ拡散モデルの世界モデルへの適応 #493

Open fulfulggg opened 5 hours ago

fulfulggg commented 5 hours ago

タイトル: AVID: ビデオ拡散モデルの世界モデルへの適応

リンク: https://arxiv.org/abs/2410.12822

概要:

大規模生成モデルは、多くの分野で目覚ましい成功を収めてきました。しかし、ロボット工学などの連続意思決定問題では、行動ラベル付きデータが不足していることが多く、意思決定のための基盤モデルのスケールアップは依然として課題となっています。解決策の一つとして、広く入手可能なラベルなし動画を活用し、行動の結果をシミュレートするワールドモデルを学習することが考えられます。ワールドモデルが正確であれば、それを用いて下流タスクにおける意思決定を最適化できます。画像から動画への拡散モデルは、すでに非常にリアルな合成動画を生成することができます。しかし、これらのモデルは行動条件付きではなく、最も強力なモデルはクローズドソースであるため、ファインチューニングができません。本研究では、事前学習済みの動画拡散モデルを、事前学習済みモデルのパラメータにアクセスすることなく、行動条件付きワールドモデルに適応させることを提案します。私たちのアプローチであるAVIDは、行動ラベル付き動画の小さなドメイン固有データセットを用いてアダプタを学習します。AVIDは、学習済みマスクを用いて、事前学習済みモデルの中間出力を修正し、正確な行動条件付き動画を生成します。ビデオゲームと現実世界のロボット工学データを用いてAVIDを評価し、拡散モデルの適応に関する既存のベースラインを上回ることを示します。私たちの結果は、適切に使用すれば、事前学習済みの動画モデルが、エンボディドAIのための強力なツールとなる可能性を示しています。

fulfulggg commented 5 hours ago

論文要約

論文要約: AVID: ビデオ拡散モデルの世界モデルへの適応

fulfulggg commented 5 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました: