fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

条件付き対照アラインメントによるガイド不要なARビジュアル生成に向けて #510

Open fulfulggg opened 7 hours ago

fulfulggg commented 7 hours ago

タイトル: 条件付き対照アラインメントによるガイド不要なARビジュアル生成に向けて

リンク: https://arxiv.org/abs/2410.09347

概要:

Classifier-Free Guidance (CFG)は、視覚生成モデルのサンプル品質を向上させるための重要な技術ですが、自己回帰型 (AR) マルチモーダル生成においては、言語と視覚コンテンツの間にデザインの不整合が生じ、視覚ARのための異なるモダリティの統合という設計理念に矛盾します。そこで本研究では、言語モデルのアライメント手法に着想を得て、Condition Contrastive Alignment (CCA) を提案します。CCAは、高性能なガイダンスフリーAR視覚生成を促進し、ガイダンス付きサンプリング手法との理論的な関連性を分析します。理想的なサンプリング分布を実現するためにサンプリングプロセスを変更するガイダンス手法とは異なり、CCAは事前学習済みモデルを直接微調整して、同じ分布目標に適合させます。実験の結果、CCAは、事前学習データセット上でわずか1エポックの微調整(事前学習エポック数の約1%)で、テストしたすべてのモデルのガイダンスフリー性能を大幅に向上させ、ガイダンス付きサンプリング手法と同等の性能を達成することがわかりました。これにより、AR視覚生成におけるガイダンス付きサンプリングの必要性はほぼなくなり、サンプリングコストは半分に削減されます。さらに、学習パラメータを調整することで、CCAはCFGと同様にサンプルの多様性と忠実性のバランスをとることができます。これは、言語を対象としたアライメント手法と視覚を対象としたガイダンス手法の間に強い理論的関連性があることを実験的に裏付け、これまで独立していた2つの研究分野を統合するものです。コードとモデルの重みは、https://github.com/thu-ml/CCA. で公開されています。

fulfulggg commented 7 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 7 hours ago

論文要約

論文要約: