これは、下図のように、潜在空間 Z のある端点(1)から別の端点(9)までの線形補間を実施した場合に、中間の潜在空間での値 z で生される生成画像に非線形な変化(4,5,6)が生じるが、このような線形補間において、どれだけ急激に画像が変化するのかを計測することにより、潜在空間の entanglement(歪み)or disentanglement (解きほぐし)の定量的指標、並びに生成画像の定量的評価指標として利用したものである。
実際に、この PPL では下図のように、低い PPL 値では生成画像の品質が向上し、逆に高い PPL 値では生成画像の品質が低下するという関係がある。
つまり、より低い PPL 値になるように生成器を正則化すれば、より滑らかな潜在空間への埋め込みが行えていることになるので、結果として、生成器が生成する画像の品質を向上させることが期待できる。
ここで、生成器が行っている潜在空間 W から画像空間 Y への写像 g : W → Y において、潜在空間 W 内での小さな振動(摂動)は、画像空間 Y 内では、摂動の方向に関係なく同じ大きさの変化(変位)をもたらすことが知られている?
※ 詳細は、論文 「Is generator conditioning causally related to GAN performance?」 参照
この知見に基づき、摂動の方向に関係なく、潜在変数 w や画像中のベクトル y のベクトルの長さ?を保持するために、以下のような式を考える。
そして、この式を最小化するような正則化処理(Path length regularization)を考えるが、この式は、ヤコビアン J が 直交行列になるとき最小化される(詳細計算略)。
※ 最小化問題を考えるのは、先の議論でみた、より低い PPL 値になるように生成器を正則化すれば、より滑らかな潜在空間への埋め込みが行えているという結果より?
尚、このヤコビアン J をそのまま計算すると計算コストが高いので、以下の式で計算するようにする。
下図は、このような正則化処理(Path length regularization)により、従来の StyelGAN より PPL スコアが低下し、その結果として生成画像の品質が向上していることを示している。
Projection of images to latent space
上記 PPL で正則化された生成器(Path length regularized generator)では、生成画像の品質が向上するだけでなく、
画像の潜在空間 W への埋め込み(=StyleGAN が行っている潜在空間→画像の反転)能力が向上するという効果もある。
これにより、どのネットワークでどの画像が生成されているのか?といったことを特定することが可能になる。
xxx
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
生成器の AdaIN 部分のアーキテクチャと正則化処理の改善
progressive growing での学習方法の改善 先の生成器の AdaIN 部分のアーキテクチャと正則化処理の改善により、水滴のシミのようなアーティファクトの問題は解決することに成功したが、従来の StyleGAN で発生する別のアーティファクト問題として、以下のような Phase アーティファクトと呼ばれるアーティファクトが生じてしまう問題がある。 ※ この Phase アーティファクトは、目の眼球や歯の並び位置などが人物の姿勢に伴って変化していないことに起因する不自然なアーティファクトであるが、デモ動画(1:40 ~ )を見たほうがわかりやすい。
- 各解像度スケールでの生成画像への寄与の可視化
Path length regularization Perceptual path length (PPL) は、StyleGAN において新たに導入された生成画像の品質を定量的に評価するための指標である。
これは、下図のように、潜在空間 Z のある端点(1)から別の端点(9)までの線形補間を実施した場合に、中間の潜在空間での値 z で生される生成画像に非線形な変化(4,5,6)が生じるが、このような線形補間において、どれだけ急激に画像が変化するのかを計測することにより、潜在空間の entanglement(歪み)or disentanglement (解きほぐし)の定量的指標、並びに生成画像の定量的評価指標として利用したものである。
Projection of images to latent space 上記 PPL で正則化された生成器(Path length regularized generator)では、生成画像の品質が向上するだけでなく、 画像の潜在空間 W への埋め込み(=StyleGAN が行っている潜在空間→画像の反転)能力が向上するという効果もある。 これにより、どのネットワークでどの画像が生成されているのか?といったことを特定することが可能になる。 xxx
4. どうやって有効だと検証した?
本手法で提案されている生成器の AdaIN 部分のアーキテクチャと正則化処理の改善により、従来の StyleGAN で発生していた生成画像や中間特徴マップにおける水滴のシミのようなアーティファクトが発生していないことを定性的に検証している。
Path length regularization)により、従来の StyelGAN より PPL スコアが低下し、その結果として生成画像の品質が向上することを検証している。
xxx
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献