【2024/06】ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

論文タイトル（原文まま）

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

ビデオ拡散モデルをパラメータ効率の良い後調整により、より長いビデオ生成能力を拡張する手法ExVideoを提案

2024/06/20

我々は、既存のビデオ生成モデルの能力を拡張し、より長い時間のコンテンツを低コストで生成できる新しい後調整手法、ExVideoを提案する。このアプローチは、3D畳み込み、時間的注意、および位置埋め込みを含む一般的な時間モデルアーキテクチャ全体で拡張戦略を設計している。

我々のアプローチは、40,000本のビデオからなるデータセットを使用して、1.5k GPU時間のトレーニングで、モデルのフレーム数を元の5倍まで生成する能力を向上させた。ビデオの長さの大幅な増加にもかかわらず、モデルの固有の一般化能力は損なわれなかった。

既存のビデオ生成モデルが短いビデオクリップしか生成できないという制約を克服し、ExVideoは長いビデオの生成を可能にする。また、追加のトレーニングコストを大幅に抑えることができる。

時間モジュールの拡張と、3D畳み込み層、時間的注意層、位置埋め込み層の強化にある。これにより、既存モデルの能力を維持しながら、ビデオ生成のフレーム数を大幅に増加させる。

Stable Video Diffusionモデルを使用して、拡張トレーニングを実施し、生成されたビデオの品質と長さを比較分析した。具体的には、32,000および64,000ステップのトレーニング段階でのモデル性能を評価した。

拡張されたモデルが人間の肖像画を生成する際に問題があることが指摘されている。高品質の長編ビデオを生成するには、強力な基礎モデルをトレーニングする必要がある。

ExVideoは、Stable Video Diffusionモデルのフレーム生成能力を元の25フレームから128フレームに拡張し、元の一般化能力を維持したまま、さまざまなスタイルと解像度のビデオを生成できることを示した。

わからない

ExVideoは限られた計算資源内でメモリ効率が高い後調整手法であり、今後の研究においてより大規模なデータセットを使用してさらに性能を向上させる可能性がある。

わからない