[Neural Collage] Spatially Controllable Image Synthesis with Internal Representation Collaging

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1811.10153
公開日時：2018/11/26
被引用数（記事作成時点）：1 件
実装コード：https://github.com/quolc/neural-collage

1. どんなもの？

Spatial conditional batch normalization (sCBN) や Feature blending で、ユーザーが画像中の任意の小領域でのセマンティクスマップを編集することでの画像部分特徴の切り替え（＝label collage）や、セマンティクスマップの編集を介しない直感的な画像部分特徴の切り替え (=feature collage) 、又それらの組み込むせでのコラージュを可能にした CNN ベースの image-to-image 手法。

2. 先行研究と比べてどこがすごいの？

Spatial conditional batch normalization (sCBN) で、入力画像の中間特徴量に対して、ユーザー指定可能な空間的に一様ではない重みで重み付けされたクラス情報を付与した正規化処理を施すことで、ユーザーが画像中の任意の小領域でのセマンティクスマップを編集することでの画像特徴の切り替え（＝label collage）を可能にしている。
また、Feature blending で、複数の画像の中間特徴量をブレンドすることで、（セマンティクスマップを編集せずとも）中間特徴量を直接変更することも出来る。(=feature collage)
更に、これら２つの手法（sCBN, Feature blending）を、manifold projection と組み合わせることにより、実画像上での局所的なセマンティクス情報の編集を可能にしている。
AdaIN や CBN [conditional batch normalization] の構造を備えた学習済みの GAN モデルさえあれば、追加学習を行わずとも任意のアーキテクチャに組み込むことが出来る。

3. 技術や手法の"キモ"はどこにある？

Spatial conditional batch normalization (sCBN) conditional batch normalization [CBN] は、入力データのクラスラベル情報を bacth norm に組みこんだ正規化手法であるが、Spatial conditional batch normalization (sCBN) は、この conditional batch normalization (CBN) の拡張版となっている。両者の違いは、CBN が、演算対象の画像のピクセルに対して、均一にクラスラベル情報を（層を重ねるごとに）徐々に加えるのに対し、sCBN は、画像のピクセル全体で空間的に均一でない強度で、クラスラベル情報（＝セマンティクス情報）を（層を重ねるごとに）徐々に加える点である。

具体的には、CBN での正規化は式で書くと、以下のようになった。

sCBN では、上式の学習可能なアフィン変換用のパラメータ γ を以下の式で置き換える。 ※ 同様にして、学習可能なアフィン変換用のパラメータ β に対しても同様の置き換えを行う。（式の導出は省略）

ここで、この重みマップ W 値は、ユーザーが直接指定出来る係数値となっており、この値を大きくするとこでクラス c（＝セマンティクス情報）の強度を指定できるようになっている。この際に、異なるクラス（＝セマンティクス情報）に対して、強い強度での重みを指定することで、下図のように複数の異なる部位を別のものに差し替える制御も可能になっている。（下図では、ラベルマップの赤と緑の複数部位）
- 【補足】 conditional batch normalization conditional batch normalization [CBN] は、入力データのクラスラベル情報を bacth norm に組みこんだ正規化手法である。具体的には、右上図のように、入力データのクラスラベル c を、MLP で bacth norm のパラメータのチャンネル数に一致するように変換し（Δβ=MLP(c), Δγ=MLP(c), ）、その後、クラス固有の新たなアフィン変換用のパラメータ（β+Δβ , γ+Δγ）として使用し、以下の式で中間特徴量を正規化する。これにより、（層を重ねて）CBN を行う度に徐々に、入力クラスラベル情報を（アフィン変換）で追加していくことが出来る。
Feature blending Feature blending は、ある画像の特定の部位の特徴量を抽出し、別の画像にブレンド出来る手法である。具体的には、上図のアーキテクチャに従って、以下の式で中間特徴マップ F をブレンドする。先の重みマップ W と同様にして、ブレンド係数のマップ M もユーザーが直接指定出来る係数値となっており、セマンティクスマップを介さなくともユーザーがブレンドの効果を直接的に制御出来るようになっている。
manifold projection による sCBN と Feature blending の組み込むせ本手法では、更に、先の Spatial conditional batch normalization (sCBN) と Feature blending の両者に対して、上図のようなアーキテクチャで、manifold projection による手法を組み合わせることにより、実画像上での局所的なセマンティクス情報の編集を可能にしている。 ※ 最終的なコラージュ画像は、更に、ポアソンブレンディング [Poisson blending] で、背景との余分なアーティファクトを取り除いている。

4. どうやって有効だと検証した？

CBN の構造を備えている GAN モデルである、学習済み SNGAN, BigGAN, StyleGAN のそれぞれで、生成画像の品質を定性的に検証している。 ※ 本手法は、CBN の構造を備えた学習済み GAN モデルに適用できるため。
- label collage の品質
- feature collage の品質
- 特徴空間内で補間した時の生成画像の品質

Yagami360 / machine-learning-papers-survey

[Neural Collage] Spatially Controllable Image Synthesis with Internal Representation Collaging #22

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？