Open fulfulggg opened 1 month ago
パーソナライズされたテキスト画像生成手法は、参照画像に基づいてカスタマイズされた画像を生成することができ、幅広い研究関心を集めています。最近の研究では、テスト時のファインチューニングを必要としないパーソナライズされた画像を生成するために、分離されたクロスアテンション機構を用いたファインチューニング不要のアプローチが提案されています。しかし、複数の参照画像が与えられた場合、現在の分離されたクロスアテンション機構ではオブジェクトの混同問題が発生し、各参照画像を対応するオブジェクトにマッピングできなくなり、適用範囲が大きく制限されます。このオブジェクト混同問題に対処するため、本研究では、拡散モデルにおける潜在画像特徴の異なる位置とターゲットオブジェクトとの関連性を調査し、それに基づいて、複数の参照画像特徴を対応するオブジェクトにマージする重み付きマージ手法を提案します。次に、この重み付きマージ手法を既存の事前学習済みモデルに統合し、オープンソースのSA-1Bデータセットから構築したマルチオブジェクトデータセットを用いてモデルの学習を継続します。オブジェクトの混同を軽減し、学習コストを削減するために、高品質な学習サンプルを選択するための画像品質を推定するオブジェクト品質スコアの提案を行います。さらに、提案する重み付きマージ学習フレームワークは、単一のオブジェクトが複数の参照画像を持つ場合に、単一オブジェクトの生成に適用できます。実験により、提案手法は、マルチオブジェクトのパーソナライズされた画像生成のConcept101データセットとDreamBoothデータセットにおいて、最先端技術を上回る性能を達成し、単一オブジェクトのパーソナライズされた画像生成の性能を著しく向上させることを確認しました。コードはhttps://github.com/hqhQAQ/MIP-Adapterで公開されています。
この論文は、複数の参照画像を使って、ユーザーが指定した通りの画像を生成する技術に関するものです。
従来技術の問題点
この論文の提案
提案技術の効果
技術的なポイント
まとめ
この論文は、従来技術の課題であった複数参照画像の曖昧性を解消する新しい技術を提案し、パーソナライズ画像生成の性能を大幅に向上させた。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: ファインチューニング不要なパーソナライズ画像生成における複数条件の曖昧性解消
リンク: https://arxiv.org/abs/2409.17920
概要:
パーソナライズされたテキスト画像生成手法は、参照画像に基づいてカスタマイズされた画像を生成することができ、幅広い研究関心を集めています。最近の研究では、テスト時のファインチューニングを必要としないパーソナライズされた画像を生成するために、分離されたクロスアテンション機構を用いたファインチューニング不要のアプローチが提案されています。しかし、複数の参照画像が与えられた場合、現在の分離されたクロスアテンション機構ではオブジェクトの混同問題が発生し、各参照画像を対応するオブジェクトにマッピングできなくなり、適用範囲が大きく制限されます。このオブジェクト混同問題に対処するため、本研究では、拡散モデルにおける潜在画像特徴の異なる位置とターゲットオブジェクトとの関連性を調査し、それに基づいて、複数の参照画像特徴を対応するオブジェクトにマージする重み付きマージ手法を提案します。次に、この重み付きマージ手法を既存の事前学習済みモデルに統合し、オープンソースのSA-1Bデータセットから構築したマルチオブジェクトデータセットを用いてモデルの学習を継続します。オブジェクトの混同を軽減し、学習コストを削減するために、高品質な学習サンプルを選択するための画像品質を推定するオブジェクト品質スコアの提案を行います。さらに、提案する重み付きマージ学習フレームワークは、単一のオブジェクトが複数の参照画像を持つ場合に、単一オブジェクトの生成に適用できます。実験により、提案手法は、マルチオブジェクトのパーソナライズされた画像生成のConcept101データセットとDreamBoothデータセットにおいて、最先端技術を上回る性能を達成し、単一オブジェクトのパーソナライズされた画像生成の性能を著しく向上させることを確認しました。コードはhttps://github.com/hqhQAQ/MIP-Adapterで公開されています。