Open fulfulggg opened 2 days ago
拡散モデルは、テキストから画像 (T2I) やテキストから動画 (T2V) の生成といった生成タスクにおいて目覚ましい成果を上げています。しかし、T2V生成において、フレーム間の複雑な時間的依存関係のため、テキストとの正確な整合性を達成することは依然として困難です。テキスト整合性を強化するための既存の強化学習 (RL) ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、使用できるプロンプトが限られており、拡張性と適用性が制限されています。本論文では、追加のモデル学習を必要とせずに、生成された動画をテキストプロンプトに整合させるための新しい勾配フリーフレームワークであるFree^2Guideを提案します。経路積分制御の原理を活用することで、Free^2Guideは微分不可能な報酬関数を使用して拡散モデルのガイダンスを近似し、強力なブラックボックスの大規模ビジョン言語モデル (LVLMs) を報酬モデルとして統合することを可能にします。さらに、私たちのフレームワークは、大規模な画像ベースモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、実質的な計算オーバーヘッドなしに相乗的に整合性を強化します。Free^2Guideは、様々な側面でテキスト整合性を大幅に改善し、生成される動画の全体的な品質を向上させることを示します。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
簡単に言うと、Free$^2$Guideは、専門的な知識を持った審査員(LVLMsなど)に動画を評価してもらいながら、より良い動画を生成する技術です。学習不要で、様々な評価基準に対応できるため、柔軟で強力な動画生成を実現します。
タイトル: Free$^2$Guide:大規模視覚言語モデルを用いたテキスト動画生成を強化する勾配不要な経路積分制御
リンク: https://arxiv.org/abs/2411.17041
概要:
拡散モデルは、テキストから画像 (T2I) やテキストから動画 (T2V) の生成といった生成タスクにおいて目覚ましい成果を上げています。しかし、T2V生成において、フレーム間の複雑な時間的依存関係のため、テキストとの正確な整合性を達成することは依然として困難です。テキスト整合性を強化するための既存の強化学習 (RL) ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、使用できるプロンプトが限られており、拡張性と適用性が制限されています。本論文では、追加のモデル学習を必要とせずに、生成された動画をテキストプロンプトに整合させるための新しい勾配フリーフレームワークであるFree^2Guideを提案します。経路積分制御の原理を活用することで、Free^2Guideは微分不可能な報酬関数を使用して拡散モデルのガイダンスを近似し、強力なブラックボックスの大規模ビジョン言語モデル (LVLMs) を報酬モデルとして統合することを可能にします。さらに、私たちのフレームワークは、大規模な画像ベースモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、実質的な計算オーバーヘッドなしに相乗的に整合性を強化します。Free^2Guideは、様々な側面でテキスト整合性を大幅に改善し、生成される動画の全体的な品質を向上させることを示します。