Open fulfulggg opened 1 day ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
目的: テキストから動画を生成する際に、生成された動画がテキストの内容に忠実であるようにする。
課題: 従来の方法は、テキストとの整合性を高めるのが難しく、特殊な学習や制限があった。
提案手法 (Free$^2$Guide): 追加学習なしで、テキストと動画の整合性を向上させる新しい手法。
効果: テキストとの整合性、そして動画全体の品質が大幅に向上。
タイトル: Free$^2$Guide:大規模視覚言語モデルによるテキスト動画生成を強化する勾配不要の経路積分制御
リンク: https://arxiv.org/abs/2411.17041
概要:
拡散モデルは、テキストから画像 (T2I) やテキストから動画 (T2V) の生成といった生成タスクにおいて目覚ましい成果を上げています。しかし、T2V 生成において正確なテキスト整合性を実現することは、フレーム間の複雑な時間的依存性のため依然として困難です。テキスト整合性を向上させるための既存の強化学習 (RL) ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、使用できるプロンプトが限られているため、スケーラビリティと適用性が制限されます。本論文では、追加のモデル訓練を必要とせずに、生成された動画をテキストプロンプトに整合させるための新しい勾配フリーフレームワークである Free^2Guide を提案します。経路積分制御の原理を活用し、Free^2Guide は微分不可能な報酬関数を用いて拡散モデルのガイダンスを近似することで、強力なブラックボックスの大規模ビジョン言語モデル (LVLM) を報酬モデルとして統合することを可能にします。さらに、私たちのフレームワークは、大規模画像ベースモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、大きな計算オーバーヘッドなしに相乗的に整合性を向上させます。Free^2Guide は、様々な次元でテキスト整合性を大幅に改善し、生成される動画の全体的な品質を向上させることを示します。