Open fulfulggg opened 1 month ago
拡散モデルは、画像生成の主要なアプローチとなっています。拡散モデルは、入力に徐々にノイズを追加するマルコフ過程をノイズ除去することによって学習されます。しかし、マルコフ性によって、生成軌道を最大限に活用することが制限され、学習と推論の効率が低下すると私たちは考えています。そこで本稿では、自己回帰(AR)と拡散を非マルコフフレームワークに統合したTransformerベースのモデルであるDARTを提案します。DARTは、標準的な言語モデルと同じアーキテクチャを持つARモデルを用いて、画像パッチを空間的およびスペクトル的に反復的にノイズ除去します。DARTは画像の量子化に依存しないため、柔軟性を維持しながら、より効果的な画像モデリングが可能になります。さらに、DARTは、テキストと画像データの両方を使用して、統一されたモデルでシームレスに学習します。私たちのアプローチは、クラス条件付き生成とテキストから画像への生成タスクにおいて、従来の拡散モデルに匹敵する性能を示し、スケーラブルで効率的な代替手段を提供します。この統合フレームワークにより、DARTはスケーラブルで高品質な画像合成の新しいベンチマークとなります。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
従来の画像生成技術(拡散モデル)の問題点:
DARTの提案: 上記の問題を解決するため、自己回帰(AR)モデルと拡散モデルを組み合わせた新しい画像生成モデルを提案。
DARTの特徴:
DARTの成果:
結論: DARTは、スケーラブルで高品質な画像合成の新しい基準となる。
タイトル: DART:スケーラブルなテキスト画像生成のためのノイズ除去自己回帰型トランスフォーマー
リンク: https://arxiv.org/abs/2410.08159
概要:
拡散モデルは、画像生成の主要なアプローチとなっています。拡散モデルは、入力に徐々にノイズを追加するマルコフ過程をノイズ除去することによって学習されます。しかし、マルコフ性によって、生成軌道を最大限に活用することが制限され、学習と推論の効率が低下すると私たちは考えています。そこで本稿では、自己回帰(AR)と拡散を非マルコフフレームワークに統合したTransformerベースのモデルであるDARTを提案します。DARTは、標準的な言語モデルと同じアーキテクチャを持つARモデルを用いて、画像パッチを空間的およびスペクトル的に反復的にノイズ除去します。DARTは画像の量子化に依存しないため、柔軟性を維持しながら、より効果的な画像モデリングが可能になります。さらに、DARTは、テキストと画像データの両方を使用して、統一されたモデルでシームレスに学習します。私たちのアプローチは、クラス条件付き生成とテキストから画像への生成タスクにおいて、従来の拡散モデルに匹敵する性能を示し、スケーラブルで効率的な代替手段を提供します。この統合フレームワークにより、DARTはスケーラブルで高品質な画像合成の新しいベンチマークとなります。