e4exp / paper_manager_abstract

0 stars 0 forks source link

Few-shot Image Generation via Cross-domain Correspondence #379

Open e4exp opened 3 years ago

e4exp commented 3 years ago

GANのような生成モデルを、限られた例(例:10)を含むターゲットドメインでトレーニングすると、容易にオーバーフィッティングが発生します。 本研究では、大規模なソースドメインを事前学習に利用し、ソースからターゲットへと多様性情報を転送することを目指している。 本研究では,新しいドメイン間距離整合性損失を用いて,ソースドメイン内のインスタンス間の相対的な類似性と相違性を保持することを提案する. さらに、オーバーフィッティングを低減するために、アンカーベースの戦略を用いて、潜在的な空間の異なる領域に対して異なるレベルのリアリズムを促す。 フォトリアリスティックな領域と非フォトリアリスティックな領域の両方で広範な結果を得て、我々の数ショットモデルがソースとターゲットのドメイン間の対応関係を自動的に発見し、従来の手法よりも多様でリアルな画像を生成することを質的にも量的にも実証した。

e4exp commented 3 years ago

image

  1. はじめに

図1(中)に示すような、比類なき画家アメデオ・モディリアーニ[36]の10枚の肖像画を考えてみましょう。 この10枚の絵画があれば、モディリアーニのスタイルを持つ絵画を無限に生成できるモデルを学習することができるだろうか?残念ながら、現代の生成モデル[11, 12, 13, 29, 3]では、正しく学習するためには、10枚ではなく、数千枚の画像が必要です。 この問題は実用上重要である. というのも,このような関心のある分野では,画像のコレクションが非常に限られているからである(例えば,Artistic-Facesデータセット[36]では,アーティストごとにわずか10例しかない). 転移学習は,ゼロからの学習に代わるものであり,限られたデータ領域に対応するために,生成的敵対ネットワーク(GAN)の文脈で検討されている. その鍵となるアイデアは,大規模なデータセットで事前学習されたソースモデルから始めて,ネットワークのパラメータにわずかな変更を加えて可能な限り多くの情報を保持するか[34, 23, 32, 20, 16],あるいはデータ増強によって合成的に学習データを増やすことで,限られたデータのターゲットドメインに適応させることである[39, 11]. しかし,これらの手法のほとんどは,100枚以上の学習画像を想定して設計されている. しかし,これらの手法は,100枚以上の訓練画像を用いた場合を想定して設計されており,利用可能な画像の数が少ない場合[16]には,訓練サンプルに過剰適合したり,質の低い結果となることが多い. 本研究では,画像が互いにどのように関連しているかという,異なる種類の情報をソース・ドメインから転送して,限られたデータの設定に対処することを検討する. 直感的には、モデルがソースドメイン内のインスタンス間の相対的な類似性と相違性を保持することができれば、ターゲットドメインに適応しながらソースドメインの多様性を継承するチャンスが得られる。 この概念を理解するために、我々は新しいクロスドメイン距離一貫性損失を導入し、適応の前後で生成されたサンプルのペアワイズ距離の分布の類似性を強制する。 画像から画像への変換のようなドメイン適応アプローチとは異なり、ここでは画像ではなくモデルを適応させます。

この2つのドメイン間の構造レベルの整合性を強制すると、興味深い特性が現れます。 具体的には、ソースドメインとターゲットドメインが関連している場合(例:顔と風刺画)、我々のアプローチは自動的に両者の間の一対一対応を発見し、図1に示すように、多様性と画像のリアリズムの両方の観点から真のターゲット分布をより忠実にモデル化することができる。 2つのドメインが無関係な場合(例:自動車と風刺画)、我々のアプローチはターゲットの分布をモデル化することができませんが、それでも興味深いパーツレベルの対応関係を発見し、多様なサンプルを生成することができます。 数少ないトレーニングサンプルは、我々が近似しようとしているターゲット分布の小さなサブセットを形成しているだけなので、我々は、生成された画像間の多様性に過度なペナルティを与えないために、2つの異なる方法でリアリズムを確保する必要があると考えた。 合成された画像のうち,実在するサンプルの1つに対応すべきものには,画像レベルの逆問題を適用する. その他の合成画像に対しては,パッチレベルの逆問題を適用します. このようにして、生成されたサンプルのうち、数ショットのトレーニング画像の1つに似ている必要があるのはごく一部で、残りのサンプルはパッチレベルのテクスチャーを捉えることを余儀なくされるだけです。

貢献 我々の主な貢献は、数ショットの画像を生成するためにクロスドメイン対応を強制する、新しいGAN適応フレームワークです。 このモデルは、多様でリアルな画像を生成するために、関連するソースとターゲットのドメイン間の対応関係を自動的に発見することを、広範な定性的および定量的な結果を通して実証している。

e4exp commented 3 years ago

image

image

image

image image image image image

e4exp commented 3 years ago
  1. 結論と限界

我々は、ドメイン間の対応関係を発見することで、大きなソースドメインで学習した事前学習済みのGANを小さなターゲットドメインに適応させることを提案した。 本手法は魅力的な結果を生むが、限界がないわけではない。 図6の車→廃車の例では、赤い車の色が廃車になるとオレンジ色に変化していますが、これは10枚の学習画像の中にオレンジ色の車が存在した(赤い車が存在しなかった)ためと考えられます。 また、「FFHQ → サングラス」は、金髪がサングラスで黒くなる例を描いています。 このように、ソースドメインとターゲットドメインの間には、より良い対応関係を発見する必要があり、それによってより多様な世代を生み出すことができると考えられます。 しかし、今回の研究は、よりデータ効率の良い生成モデルの作成に向けた重要な一歩であり、既存のソースモデルを効果的に活用することで、少ないデータで新しい分布をモデル化できることを示していると考えています。