fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

Free$^2$Guide:大規模視覚言語モデルによるテキスト動画生成を強化する勾配不要の経路積分制御 #830

Open fulfulggg opened 1 day ago

fulfulggg commented 1 day ago

タイトル: Free$^2$Guide:大規模視覚言語モデルによるテキスト動画生成を強化する勾配不要の経路積分制御

リンク: https://arxiv.org/abs/2411.17041

概要:

拡散モデルは、テキストから画像 (T2I) やテキストから動画 (T2V) の生成といった生成タスクにおいて目覚ましい成果を上げています。しかし、T2V 生成において正確なテキスト整合性を実現することは、フレーム間の複雑な時間的依存性のため依然として困難です。テキスト整合性を向上させるための既存の強化学習 (RL) ベースのアプローチは、多くの場合、微分可能な報酬関数を必要とするか、使用できるプロンプトが限られているため、スケーラビリティと適用性が制限されます。本論文では、追加のモデル訓練を必要とせずに、生成された動画をテキストプロンプトに整合させるための新しい勾配フリーフレームワークである Free^2Guide を提案します。経路積分制御の原理を活用し、Free^2Guide は微分不可能な報酬関数を用いて拡散モデルのガイダンスを近似することで、強力なブラックボックスの大規模ビジョン言語モデル (LVLM) を報酬モデルとして統合することを可能にします。さらに、私たちのフレームワークは、大規模画像ベースモデルを含む複数の報酬モデルの柔軟なアンサンブルをサポートし、大きな計算オーバーヘッドなしに相乗的に整合性を向上させます。Free^2Guide は、様々な次元でテキスト整合性を大幅に改善し、生成される動画の全体的な品質を向上させることを示します。

fulfulggg commented 1 day ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 1 day ago

論文要約

Free$^2$Guide 論文要約