DART：スケーラブルなテキスト画像生成のためのノイズ除去自己回帰型トランスフォーマー

fulfulggg commented 1 month ago

タイトル: DART：スケーラブルなテキスト画像生成のためのノイズ除去自己回帰型トランスフォーマー

リンク: https://arxiv.org/abs/2410.08159

概要:

拡散モデルは、画像生成の主要なアプローチとなっています。拡散モデルは、入力に徐々にノイズを追加するマルコフ過程をノイズ除去することによって学習されます。しかし、マルコフ性によって、生成軌道を最大限に活用することが制限され、学習と推論の効率が低下すると私たちは考えています。そこで本稿では、自己回帰（AR）と拡散を非マルコフフレームワークに統合したTransformerベースのモデルであるDARTを提案します。DARTは、標準的な言語モデルと同じアーキテクチャを持つARモデルを用いて、画像パッチを空間的およびスペクトル的に反復的にノイズ除去します。DARTは画像の量子化に依存しないため、柔軟性を維持しながら、より効果的な画像モデリングが可能になります。さらに、DARTは、テキストと画像データの両方を使用して、統一されたモデルでシームレスに学習します。私たちのアプローチは、クラス条件付き生成とテキストから画像への生成タスクにおいて、従来の拡散モデルに匹敵する性能を示し、スケーラブルで効率的な代替手段を提供します。この統合フレームワークにより、DARTはスケーラブルで高品質な画像合成の新しいベンチマークとなります。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

diffusion-models
text-to-image
image-generation

fulfulggg commented 1 month ago

論文要約