Fine-Tuning StyleGAN2 For Cartoon Face Generation

Abstract

Limitations

image to image(I2I) translation으로 보다 사실적인 이미지를 만들어 낼 수 있다.
imbalance한 data 때문에 latent space에서 data의 다양한 분포를 가지도록 하는 것이 과제
target image를 사실적으로 만들어 낼 수 있으나, source image의 구조를 유지하는 것은 힘들다.
large data를 training하기에는 많은 시간과 컴퓨터가 필요하다.
목표
stylegan2 pretrained model을 finetuning하는 새로운 image-to-image translation 방법을 소개한다.
stylegan2 model은 unbalanced dataset을 학습시키는데 적합한 모델이다.
source image를 구조화하고 target domain을 실사화하는 방법을 소개한다.

1. Introduction

해당 논문에서는 stylegan2 model을 unsupervised I2I translation을 위해서 fine-tuning한다. source image와 target image를 비슷하게 만들어주는 2가지 방법을 소개한다.

FreezeSG, style vector와 generator의 첫번째 블록을 고정시키는 방법. 이는 source image의 구조를 target image가 따라하도록 하는 간단한 방법이다.
Structure Loss, source generator와 target generator의 처음 블록 간 거리를 줄여주기 위해서 Loss를 정의한다. 모델을 layer swaping하여 구현

2. Related Work

Generative Adversarial Networks(GANs)

Image-to-Image Translation

Transfer Learning

3. Method

3.1 FreezeSG

FreeezeG논문 [17]에 따른다면, image의 구조에 초반 generator layer과 style vector이 영향을 미친다. 이에 영감을 받아 처음 generator 블록을 얼리고, 처음 style vector input을 stylegan2의 fine-tuning된 값을 넣어주기로 한다. 이를 간단하게 FreezeSG라 칭한다. Figure 1.

FreezeSG의 경우 generator만 고정시킨 경우보다 소스 이미지를 잘 반영한다.
Layer Swapping(LS)을 적용하면 FreezeSG로 부터 만들어진 image는 source image를 잘 반영하는 모습을 보인다.

3.2 Structure Loss

3.1 section에서 FreezeSG의 효과를 볼 수 있었다. 그러나 generator의 low-resolution layer 가중치를 고정하고, low-ersolution layer을 layer swapping만 한다면 의미있는 결과를 얻기는 힘들다. 그렇기에 LS하여도 효과적이고 간단한 loss function을 소개한다. (called by structure loss)

Adversarial Loss

original GAN에서는 generator G와 discriminator D를 학습시켰다. G는 target domain과 유사한 사진을 만들도록 (loss를 최소화) 학습하고, D는 G가 만들어 내는 이미지를 가려내도록하는 학습을 한다.

Structure Loss

n 개의 style block에 대해서 loss를 적용하고 싶다면, 우선 source generator와 target generator의 RGB output을 먼저 얻어야 한다.
각 resolution에 대해서 mse loss를 구하고 n-th layer까지 모두 더한다.

Full Objective

상수 $\lambda 값은 실험을 통하여 1임을 알아냈다.

4. Experiments

4.1. Datasets

Source domain dataset

Flickr-Faces-HQ(FFHQ) dataset 이용

high-quality image
70K images
train the stylegan2 model of 256 resolution

Target domain dataset

use Naver Webtoon, Metfaces, Disney dataset
crawling webtoon, Naver Webtoon, cropping face to 256x256 size, 15kinds of webtoons, 8000 images
other dataset, using images from 256 resolution

4.2. Training details

FreezeSG

Stylegan2 pre-trained model의 generator과 style vector의 초반 블록을 고정시키고 학습하였다.
실험을 통하여 256x256size image를 만들어 낼 때 2 style blocks(4x4 & 8x8)을 고정시키는 것이 효과적임을 확인

Layer Swapping(LS)

source generator의 저해상도 layer(4x4 - 64x64)를 합해주는 것이 효과적
target generator의 고해상도 layer(64x64 - 256x256)을 합해주는 것이 효과적

학습할 때 structure loss을 input/output skip architecture of the stylegan2 model에 적용. 이 loss는 source generator의 3 low-resolution layer 적용하였다.

4.3. Experiment Results

본 논문에서 보여준 모델은 FreezeD + ADA / FreezeG 모델보다 더 나은 모습을 보여주었다. 추가적으로 LS 기술을 적용하였을 때, source domain이 유지되어 결과물로 나왔다.

doublejy715 / Paper_review