personabb / survey_paper

0 stars 0 forks source link

【2023/11】Manifold-Preserving Guidance for Diffusion Models #3

Closed personabb closed 1 week ago

personabb commented 1 week ago

論文タイトル(原文まま)

Manifold-Preserving Guidance for Diffusion Models

一言でいうと

多様体仮説を用いたガイダンスを拡散モデルに適用し、高品質かつ効率的な条件付き生成を実現する手法。

論文リンク

arXiv:2311.16424

著者/所属機関

Yutong He (カーネギーメロン大学), Naoki Murata (ソニーAI), Chieh-Hsin Lai (ソニーAI), Yuhta Takida (ソニーAI), Toshimitsu Uesaka (ソニーAI), Dongjun Kim (ソニーAI), Wei-Hsiang Liao (ソニーAI), Yuki Mitsufuji (ソニーAI, ソニーグループ株式会社), J. Zico Kolter (カーネギーメロン大学), Ruslan Salakhutdinov (カーネギーメロン大学), Stefano Ermon (スタンフォード大学)

投稿日付(yyyy/MM/dd)

2023/11/29

概要

In this paper,

本論文では、事前に訓練された拡散モデルと既製のニューラルネットワークを活用し、追加の推論コストを最小限に抑えた幅広いタスクに対応する訓練不要の条件付き生成フレームワークである、多様体保存誘導拡散(MPGD)を提案します。具体的には、誘導拡散ステップを洗練し、プロセスにショートカットアルゴリズムを導入するために多様体仮説を活用します。事前訓練されたオートエンコーダを使用した多様体上の訓練不要の誘導方法を2つ提案し、ショートカットが潜在拡散モデルに適用されたときに多様体を自然に保存することを実証します。

As a result,

MPGDは低計算環境におけるさまざまな条件付き生成アプリケーションを効率的かつ効果的に解決し、最大3.8倍の速度向上を提供しつつ、高いサンプル品質を維持できることが示されました。

先行研究と比べてどこがすごい?

従来の訓練不要の誘導拡散法では、サンプル品質が一貫していない問題がありましたが、MPGDは多様体仮説を活用することで、より高品質かつ効率的なサンプル生成を実現しています。また、追加のトレーニングを必要とせずに多様体保存を行う点が優れています。

技術や手法のキモはどこ?

多様体仮説を用いて拡散プロセスをガイダンスし、ガイダンスの勾配を多様体上に投影することにより、データの多様体構造を維持しながら条件付き生成を行う点です。また、VQGANなどの事前訓練されたオートエンコーダを用いることで、多様体上のガイダンスを実現しています。

どうやって有効だと検証した?

雑音を含む線形逆問題の解決、顔認識モデル(FaceID)ガイダンスによる人間の顔生成、および特定の入力スタイルによるテキストから画像への生成という3つの条件付き画像生成タスクで実験を行い、各タスクでのサンプル品質と推論時間を評価しました。

議論はある?

提案手法が従来の方法と比較して高いパフォーマンスを示すことが確認されましたが、オートエンコーダの選択やガイダンスの適用方法についてはさらなる研究が必要です。また、大規模モデルに対するバイアスや著作権問題についても議論の余地があります。

結果

MPGDは、従来の訓練不要の誘導拡散法に比べて、より高品質かつ効率的な条件付き生成を実現しました。具体的には、さまざまな条件付き生成アプリケーションにおいて、最大3.8倍の速度向上を達成しながら高いサンプル品質を維持しました。

次に読むべき論文は?

コメント

MPGDは、条件付き生成タスクにおける拡散モデルの適用に新たな視点を提供しています。多様体仮説を利用することで、追加のトレーニングなしに高品質な生成を実現しており、今後の研究や応用において非常に有望です。

personabb commented 1 week ago

https://chatgpt.com/g/g-DTk1KpYjg-pdf-translator/c/4f303e27-e22e-4a2f-8dcc-4a95b59e35f3

personabb commented 1 week ago

解説動画 https://www.youtube.com/watch?v=V6B_SJHNkzQ

personabb commented 1 week ago

忘備録として下記に記載する。(すごい面白い) SDを想定すると、拡散プロセスで入力されるのは潜在表現 (通常のDiffuserモデルなら通常の画像として考えてOK。同じ) 時刻tステップの潜在表現をZtとし、拡散モデルをS、ノイズ表現(スコア)をεとする εt=Sθ(Zt)となる ここでさらにZtをノイズ表現E0'とクリーン潜在表現Z0'にわけるネットワークGがあるとすると。潜在表現はノイズとクリーン表現に分けることができる。 続いて誘導したい画像表現になるZ0^(VAEなので簡単に取得できるはず)と今回得られたZ0'の類似度をLとして計算する。 通常のGuieded Diffusionでは、この類似度Lの勾配表現である∇LをZt(=E0'+Z0')に加えて誘導拡散を実施するが、提案手法の場合、さらにVAEをもう一つ用意する。 Z0'' =VAE_D(VAE_E(Z'0))が成立する。 この時Z0''はZ0'と同様の分布から得られているクリーン潜在表現であり、Z0'の特徴のほとんどを包含していると仮定できる。 そこで、提案手法ではLの計算においてZ0^とZ0''の類似度を計算しているのではないかと思う。そうすることで得られる∇LをVAE_E(Z'0)で得られる潜在表現まで落とし込むことができるので、この潜在表現上で∇Lによる更新を行う。すなわち下記が成立する Z0''# = VAE_D(-∇L +VAE_E(Z'0)) ここで得られた潜在表現Z0''#はVAEの出力なのでクリーン表現であるが、元の潜在表現から条件づけられた方向に勾配が移動してできた潜在表現である。 ここに元のノイズであるE0'を加えてZt''#を作成する。 クリーン画像にtステップ目のノイズを加えて作成されているので、画像の多様体は同じ空間場にあることが保証できる。 さらにそこに拡散モデルにより得られたノイズ(スコア)εtを引くことで Zt+1 = Zt''# - εt が得られるため、次のステップの拡散モデルに入力できる。 (さらに分類機ガイダンスにより正しくガイド付けができている)

personabb commented 1 week ago

VAEはVQVAEを利用している。 私の理解ではVQVAEは離散的な潜在表現を学ぶように学習しているが(コードブックと潜在表現が近づくように学習される)、学習時は、学習パスがエンコーダとデコーダで繋がっているので、連続的な表現になっても問題なく再構成できる?から今回の手法において、潜在表現に勾配情報で更新をかけても問題なくクリーン画像が再構成できるという感じ?

これがSQVAEならうまくいっていない? https://www.youtube.com/watch?v=LARyoWw4Mp8

( VAEの進化モデルVQ-VAEの進化モデルSQ-VAE VQ-VAEはVAEの潜在表現を離散化することを目的としている 離散化するにはコードブックと呼ばれる既存の辞書から距離が一番近いものに選ばれる ただしアドホックな手法のため、設定可能なハイパーパラメータが多いのが課題。 また、学習の途中で全く選ばれないコードブックが発生する ここでSQ-VAEでは同様の方向性で、完全に離散化しない形で学習する またコードブックを距離ではなく確率分布により決定するため、greadな方法で決定しないため、いろんなコードブックが確率的に選べれるため、より最適なコードブックが得られる可能性が上がる )