A Simple Baseline for StyleGAN Inversion

e4exp commented 3 years ago

https://arxiv.org/abs/2104.07661
2021

本論文では、事前学習したStyleGANを実際の顔画像編集タスクに使用できるようにするために不可欠な役割を果たす、StyleGANの反転問題を研究している。この問題は、品質と効率性に対する高い要求がある。既存の最適化ベースの手法は、高品質な結果を得ることができますが、最適化にはしばしば長い時間がかかります。逆に、フォワードベースの手法は、通常、高速ですが、結果の品質は劣ります。本論文では、StyleGAN反転のための新しいフィードフォワードネットワークを提示し、効率と品質の面で大幅な改善を図っている。我々の反転ネットワークでは、以下を導入する。

1）スケールを超えた複数の効率的なヘッドを持つ、より浅いバックボーン、 2）損失関数への多層同一性損失および多層顔解析損失、 3）多段階リファインメント。

これらの設計を組み合わせることで、最適化ベースの手法とフォワードベースの手法の利点をすべて活用した、シンプルで効率的なベースライン手法が形成されます。定量的および定性的な結果から、我々の手法は、フォワードベースの手法と同様に高い効率性を維持しながら、既存のフォワードベースの手法よりも優れた性能を発揮し、最先端の最適化ベースの手法と同等の性能を発揮することがわかった。さらに、多数の実際の画像編集アプリケーションにより、本手法の有効性が実証されました。私たちのプロジェクトページは、~url{this https URL}です。 https://wty-ustc.github.io/inversion

e4exp commented 3 years ago

はじめに

GAN反転は、実画像をStyleGAN[24, 25]のような事前に学習されたGANモデルの潜在空間に反転させ、生成器によって反転したコードから画像を忠実に再構成することを目的としています。これは、柔軟な画像編集フレームワークを提供するだけでなく、深い生成モデルの下にあるメカニズムを明らかにするのに役立ちます。プリトレーニングされたGANモデルと実際の画像編集タスクを橋渡しする新しい技術として[37, 1, 2]、GANインバージョンは品質と効率性に対する高い要求がある。最近、数多くのGANインバージョン手法[1, 2, 33, 16]が提案されており、潜在空間における人間の顔の有意義な操作を行う上で、強い能力を示している。それらは主に、最適化ベース[1, 2, 34]とフォワードベース[35, 33, 16]に分類される。最適化ベースのアプローチは、与えられた単一の画像に対して、バックプロパゲーションにより潜在コードを直接最適化します。高品質の反転が可能ですが，最適化プロセスには時間がかかりすぎるため，リアルタイムでの応用には大きな制限があります．フォワードベースの手法は，エンコーダネットワークを用いて，画像空間から潜在空間へのマッピングを学習するもので，推論に必要なのは1回のフィードフォワードパスのみであり，リアルタイムアプリケーションに高い効率性を提供する．しかし，再構成の質が低く，また，ネットワーク構造が大きく複雑になるという問題がある．その上，フォワードネットワークの上に最適化を組み込んだハイブリッドアプローチ[43, 8, 7]は，品質の問題を緩和するが，時間コストが大幅に増加する．本論文では、StyleGAN反転のための新しいフィードフォワードネットワークを提案し、効率と品質の両方の面で既存のアプローチを大幅に改善する。このようなベースラインは非常にシンプルですが、驚くほど効果的です。具体的には、ネットワークアーキテクチャに2つのコアセクションを導入する。まず、我々のエンコーダネットワークは、既存のフォワードネットワーク[43]で行われるような予測をエンコーダの最後の層のみで行うのではなく、潜在コード予測のための階層構造を考慮している。このようにして，エンコーダの様々な空間レベルから抽出された特徴ベクトルは，事前に学習されたStyleGAN生成器からの異なる意味レベルの詳細に対応することができる．一方で、エンコーダが深ければ深いほど反転がうまくいくというわけではないこともわかった。また、潜在的なコードの予測には、より浅いエンコーダで十分である。次に、各レベルで効率的な予測ヘッドを共有する方法を採用しています。この方法は、レベルごとにサイズを変えたグローバル平均プーリング層と、フルコネクト層のみで構成されています。これは、[35]で使用された、一連の畳み込み層からなる複雑で独立したヘッドよりも軽量で効率的である。このアーキテクチャに加えて、より良い品質のために、損失関数に2つの新しい損失を導入する。一つは多層同一性損失で，単層同一性損失[35]と比較して，より強いセマンティックな整合性監視を行うことで，再構成画像と入力実画像との間の同一性の整合性を大幅に改善しています．もう1つは，多層顔解析損失で，顔の局所的な詳細（目やマウスなど）を捕捉して，よりきめ細かな再構成を可能にする．さらに、1段階の潜在コードの予測と理想的な予測との間の品質のギャップを減らすために、より良い反転品質を達成するために、エンコーダの複数のパスを通して潜在コードの残差を徐々に予測する多段階の洗練された学習アプローチを提案します。定性的および定量的な実験により、我々のGAN反転法は既存のフォワードベースの手法を大幅に上回り、さらには最先端の最適化ベースの手法に匹敵する性能を達成した。また、安全性の高いディープハイディング、画像操作、画像修復、画像変換などの多くのアプリケーションにより、我々のGANインバージョン法がリアルタイムの画像編集タスクに一般化していることが証明された。

e4exp commented 3 years ago

結論

本論文では、効率と品質の面で大幅に改善された、新しいシンプルなフィードフォワードGANインバージョンネットワークを提案した。このような改善は3つの側面からもたらされる。

1）浅いバックボーン、階層的潜在コード回帰、および効率的な予測ヘッドを備えた、より効率的なGAN反転ネットワークを設計すること、 2）多層同一性損失および多層解析損失を導入すること、 3）純粋にフィードフォワードベースの多段階リファインメントを行うことである。

大規模な評価と応用により、我々の手法は既存のフィードフォワードベースの手法よりもはるかに優れた性能を発揮し、最先端の最適化ベースの手法と比較しても、より高い効率性を発揮することが実証された。

e4exp / paper_manager_abstract

A Simple Baseline for StyleGAN Inversion #384