[2023]LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

【背景】 • テキストから画像生成の成功により、テキストからビデオ生成の研究が注目されている。 • テキストからビデオ生成は、映画製作やビデオゲーム、芸術的創造などの領域での応用が期待されている。 • 既存のテキストから画像生成モデルを利用するアプローチがある。【目的】 • 高品質なテキストからビデオ生成モデルを学習すること。 • テキストから画像生成モデルの創造性を保ちながら、リアルで時間的に整合性のあるビデオを生成すること。【手法】 • LaVieというビデオ生成フレームワークを使用し、カスケード型のビデオ潜在拡散モデルを使用する。 • ベースのテキストからビデオモデル、時間的補間モデル、ビデオの超解像モデルから構成されている。 • ビデオデータの時間的相関を捉えるために、時間的自己注意と回転位置エンコーディングを組み合わせる。 • 画像とビデオの同時微調整のプロセスが重要。【実験方法】 • 高品質で多様性のあるビデオデータセットVimeo25Mを作成。 • 定量的および定性的な実験を行い、モデルの性能を評価。【実験結果】 • LaVieは、定量的および定性的な評価において、最先端の性能を達成。 • テキストからビデオ生成やパーソナライズされたビデオ合成など、さまざまな応用において優れた結果を示した。【考察】 • 事前学習済みのテキストから画像生成モデルを利用することの有効性が示された。 • データセットの作成やモデルアーキテクチャの設計が性能向上に重要。 • モデルの汎用性が示された。

takumi7110 / paper

[2023]LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models #6