GANSpace: Discovering Interpretable GAN Controls

Erik Härkönen, Aaron Hertzmann, Jaakko Lehtinen, Sylvain Paris

2020-04-06

1. どんなもの？

BigGANやStyleGANではクラスを指定するかスタイルベクトルを調整することでしか生成される画像を制御することができない。

本研究では教師データの使用や計算コストの高い手法を採用することなく、生成画像を制御できる方法を提案した。

GANでは通常ガウス分布からサンプリングした潜在ベクトルをGeneratorに入力して画像を生成する。画像を生成する段階で、Generatorを構成するL個の層を通して計算を進めていく。

これが通常のGANの計算の流れではあるが、近年提案されているBigGANでは中間層にも潜在ベクトルを入力する構造になっており、またクラスを表すベクトルも入力する。本研究ではクラスベクトルは固定したうえで実験を行っている。

StyleGANでは1層目の入力を固定ベクトルにしておき、潜在ベクトルzを8層のMLPを通してスタイルベクトルに変換したうえで中間層に入力する。

潜在空間上で意味のある方向を探索するために、Generatorの入力に近い層での活性値にPCAを適用することが有効であることが実験からわかった。

StyleGANにPCAを適用する場合は、ランダムにサンプリングしたN個の潜在ベクトルに対応するスタイルベクトルを抽出し、PCAを適用することで低ランクの基底ベクトルに抽出することが可能になる。

BigGANの場合は潜在ベクトルzの分布は学習しないため、PCAを中間層に対して適用し得られた方向を潜在空間に反映させる。

ランダムにサンプリングしたN個の潜在ベクトルに対応する中間層での活性値にPCAを適用し、

本研究では学習済みのGANが生成する画像を制御する手法を提案した。