Open fulfulggg opened 3 months ago
拡散ベースの画像超解像(SR)手法は、低解像度の画像から高解像度の画像を微細なディテールまで復元する promisingな手法として注目されています。しかし、これらの手法は通常、数十回、あるいは数百回の反復サンプリングを必要とするため、レイテンシが大きくなってしまいます。最近では、知識蒸留によって拡散ベースのSRモデルのサンプリング効率を高める手法が考案されています。しかしながら、生徒モデルと教師モデルの知識を連携させる際、これらの手法はピクセルレベルの損失制約のみに依存しているか、拡散モデルが異なるタイムステップで異なるレベルの情報を優先するという事実を無視しています。効果的かつ効率的な画像超解像を実現するために、本稿ではTAD-SRと呼ばれる時間認識型拡散蒸留法を提案します。具体的には、マイナーノイズ摂動後の生徒モデルと教師モデルの出力間のデータ分布を整合させるために、新しいスコア蒸留戦略を導入します。この蒸留戦略により、生徒ネットワークは高周波成分のディテールにより集中することができます。さらに、蒸留に起因する性能制限を軽減するために、潜在的な敵対的損失を統合し、拡散事前分布を活用して実画像と生成画像を効果的に区別する時間認識型識別器を考案します。合成データセットと実世界のデータセットを用いた広範な実験により、提案手法がわずか1回のサンプリングステップで、従来の最先端(SOTA)手法や教師モデルと同等以上の性能を達成することを実証します。コードはhttps://github.com/LearningHx/TAD-SRで公開されています。
目的: 低解像度画像から高解像度画像を高速かつ高精度に生成する技術の開発
課題: 従来の拡散ベース超解像技術は処理速度が遅い
提案手法 (TAD-SR):
結果:
要点:
コード公開: https://github.com/LearningHx/TAD-SR
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: 時間認識蒸留を用いたワンステップ拡散ベース超解像技術
リンク: https://arxiv.org/abs/2408.07476
概要:
拡散ベースの画像超解像(SR)手法は、低解像度の画像から高解像度の画像を微細なディテールまで復元する promisingな手法として注目されています。しかし、これらの手法は通常、数十回、あるいは数百回の反復サンプリングを必要とするため、レイテンシが大きくなってしまいます。最近では、知識蒸留によって拡散ベースのSRモデルのサンプリング効率を高める手法が考案されています。しかしながら、生徒モデルと教師モデルの知識を連携させる際、これらの手法はピクセルレベルの損失制約のみに依存しているか、拡散モデルが異なるタイムステップで異なるレベルの情報を優先するという事実を無視しています。効果的かつ効率的な画像超解像を実現するために、本稿ではTAD-SRと呼ばれる時間認識型拡散蒸留法を提案します。具体的には、マイナーノイズ摂動後の生徒モデルと教師モデルの出力間のデータ分布を整合させるために、新しいスコア蒸留戦略を導入します。この蒸留戦略により、生徒ネットワークは高周波成分のディテールにより集中することができます。さらに、蒸留に起因する性能制限を軽減するために、潜在的な敵対的損失を統合し、拡散事前分布を活用して実画像と生成画像を効果的に区別する時間認識型識別器を考案します。合成データセットと実世界のデータセットを用いた広範な実験により、提案手法がわずか1回のサンプリングステップで、従来の最先端(SOTA)手法や教師モデルと同等以上の性能を達成することを実証します。コードはhttps://github.com/LearningHx/TAD-SRで公開されています。