DiMSUM：拡散マンバ -- スケーラブルで統一された画像生成のための空間周波数手法

fulfulggg commented 5 hours ago

タイトル: DiMSUM：拡散マンバ -- スケーラブルで統一された画像生成のための空間周波数手法

リンク: https://arxiv.org/abs/2411.04168

概要:

画像生成タスクにおいて、入力画像の局所特徴への帰納バイアスを強化するため、空間情報と周波数情報を効果的に活用する新しい状態空間アーキテクチャを提案します。Mambaなどの状態空間ネットワークは、リカレントニューラルネットワークの革新的な進歩ですが、通常は入力シーケンスを左から右へスキャンするため、特に画像データの処理において効果的なスキャン戦略の設計が困難です。本手法では、ウェーブレット変換をMambaに統合することで、視覚入力の局所構造認識を強化し、低周波数成分と高周波数成分の両方を表すウェーブレットサブバンドに分解することで、周波数の長距離関係をより適切に捉えることを示します。これらのウェーブレットベースの出力は、クロスアテンション融合層を介して元のMamba出力とシームレスに融合され、空間情報と周波数情報の両方を組み合わせることで、画像生成の詳細と全体的な品質に不可欠な状態空間モデルの順序認識を最適化します。さらに、Mambaのパフォーマンスを向上させるため、グローバルな関係性を捉える優れた能力を持つグローバル共有Transformerを導入します。標準ベンチマークでの広範な実験を通じて、本手法はDiTやDIFFUSSMと比較して優れた結果を示し、より速い学習収束と高品質の出力を実現します。コードと学習済みモデルはhttps://github.com/VinAIResearch/DiMSUM.gitで公開しています。

fulfulggg commented 5 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

diffusion-models
image-generation
generative-models

fulfulggg commented 5 hours ago

論文要約

DiMSUM：拡散マンバ論文要約

DiMSUMは、画像生成をより高品質かつ高速に行うための新しい深層学習モデルです。

マンバの改良: 画像生成に優れた「マンバ」というモデルをベースに、画像の細部情報と全体構造の両方をより良く捉えるように改良しました。
周波数情報の活用: 画像を様々な周波数成分に分解するウェーブレット変換を用いることで、画像の細かな模様や全体的な形状といった異なるスケールの情報を効率的に処理します。
空間情報との融合: ウェーブレット変換で得られた周波数情報は、マンバが持つ空間情報と組み合わせることで、より正確な画像生成を実現します。
全体構造の把握: 画像全体の構造を捉えるのが得意なTransformerを導入し、より自然で一貫性のある画像を生成できるようにしました。
優れた性能: 既存の手法(DiT, DIFFUSSM)と比較して、より高品質な画像をより速く生成できることを実験で確認しました。

簡単に言うと、DiMSUMは画像を様々な視点から分析し、その情報を組み合わせることで、よりリアルで高品質な画像を効率的に生成できる新しい技術です。

fulfulggg / Information-gathering