Open fulfulggg opened 5 hours ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
この論文は、拡散Transformer (DiT) を用いた高精度な画像編集手法を提案しています。DiTは画像とテキストを共通の潜在空間に埋め込みますが、この空間の特性を解析することで、より精密な編集が可能になることを示しています。
これらの知見に基づき、符号化-識別-操作 (EIM) フレームワークを提案しています。
このEIMフレームワークは、ゼロショットで、つまり追加学習なしで、細粒度の画像編集を可能にします。 また、潜在空間の分離度を測る新しい指標も提案し、実験によってその有効性を示しています。
タイトル: 拡散Transformerにおける潜在空間の分離により、高精度なゼロショットセマンティック編集が可能になる
リンク: https://arxiv.org/abs/2411.08196
概要:
拡散トランスフォーマー(DiT)は、テキストガイド付き画像生成において目覚ましい成果を上げています。画像編集において、DiTはテキストと画像の入力を共通の潜在空間に射影し、そこから新しい画像を復元・合成します。しかし、この共通空間がどのように多モーダル情報を統合し、合成画像の意味をどのように導いているのかは、ほとんど解明されていません。本論文では、DiTモデルの潜在空間を調査し、2つの重要な特性を明らかにします。第一に、DiTの潜在空間は本質的に意味的に分離されており、特定の編集方向によって異なる意味属性を制御できます。第二に、符号化された画像もテキストも単独では十分な意味情報を含んでいないため、一貫した意味編集には、共通潜在空間全体を利用する必要があります。これらの編集方向はテキストプロンプトから直接取得できることを示し、追加の学習やマスク注釈なしで正確な意味制御を可能にします。これらの知見に基づき、ゼロショットで細粒度の画像編集を行うためのシンプルながらも効果的な符号化-識別-操作(EIM)フレームワークを提案します。具体的には、まず与えられたソース画像と画像を説明するテキストプロンプトの両方を符号化し、共通の潜在埋め込みを取得します。次に、提案するヘッセ行列スコア蒸留サンプリング(HSDS)法を用いて、他の画像特徴を保持しながら特定の目標属性を制御する編集方向を識別します。これらの編集方向はテキストプロンプトによって導かれ、潜在埋め込みの操作に使用されます。さらに、拡散モデルの潜在空間の分離度を定量化する新しい指標を提案します。新たに作成したベンチマークデータセットを用いた広範な実験結果と分析により、DiTの分離特性とEIMフレームワークの有効性が示されています。