Open fulfulggg opened 5 hours ago
画像生成タスクにおいて、入力画像の局所特徴への帰納バイアスを強化するため、空間情報と周波数情報を効果的に活用する新しい状態空間アーキテクチャを提案します。Mambaなどの状態空間ネットワークは、リカレントニューラルネットワークの革新的な進歩ですが、通常は入力シーケンスを左から右へスキャンするため、特に画像データの処理において効果的なスキャン戦略の設計が困難です。本手法では、ウェーブレット変換をMambaに統合することで、視覚入力の局所構造認識を強化し、低周波数成分と高周波数成分の両方を表すウェーブレットサブバンドに分解することで、周波数の長距離関係をより適切に捉えることを示します。これらのウェーブレットベースの出力は、クロスアテンション融合層を介して元のMamba出力とシームレスに融合され、空間情報と周波数情報の両方を組み合わせることで、画像生成の詳細と全体的な品質に不可欠な状態空間モデルの順序認識を最適化します。さらに、Mambaのパフォーマンスを向上させるため、グローバルな関係性を捉える優れた能力を持つグローバル共有Transformerを導入します。標準ベンチマークでの広範な実験を通じて、本手法はDiTやDIFFUSSMと比較して優れた結果を示し、より速い学習収束と高品質の出力を実現します。コードと学習済みモデルはhttps://github.com/VinAIResearch/DiMSUM.gitで公開しています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
DiMSUMは、画像生成をより高品質かつ高速に行うための新しい深層学習モデルです。
簡単に言うと、DiMSUMは画像を様々な視点から分析し、その情報を組み合わせることで、よりリアルで高品質な画像を効率的に生成できる新しい技術です。
タイトル: DiMSUM:拡散マンバ -- スケーラブルで統一された画像生成のための空間周波数手法
リンク: https://arxiv.org/abs/2411.04168
概要:
画像生成タスクにおいて、入力画像の局所特徴への帰納バイアスを強化するため、空間情報と周波数情報を効果的に活用する新しい状態空間アーキテクチャを提案します。Mambaなどの状態空間ネットワークは、リカレントニューラルネットワークの革新的な進歩ですが、通常は入力シーケンスを左から右へスキャンするため、特に画像データの処理において効果的なスキャン戦略の設計が困難です。本手法では、ウェーブレット変換をMambaに統合することで、視覚入力の局所構造認識を強化し、低周波数成分と高周波数成分の両方を表すウェーブレットサブバンドに分解することで、周波数の長距離関係をより適切に捉えることを示します。これらのウェーブレットベースの出力は、クロスアテンション融合層を介して元のMamba出力とシームレスに融合され、空間情報と周波数情報の両方を組み合わせることで、画像生成の詳細と全体的な品質に不可欠な状態空間モデルの順序認識を最適化します。さらに、Mambaのパフォーマンスを向上させるため、グローバルな関係性を捉える優れた能力を持つグローバル共有Transformerを導入します。標準ベンチマークでの広範な実験を通じて、本手法はDiTやDIFFUSSMと比較して優れた結果を示し、より速い学習収束と高品質の出力を実現します。コードと学習済みモデルはhttps://github.com/VinAIResearch/DiMSUM.gitで公開しています。