Abstract

Generavtive adversarial networks(GANs)는 random latent vectors를 이용하여 실제적 이미지를 만든다.
latent vectors로 synthesized output을 조정 가능하지만, editing real images는 여전히 다음과 같은 단점을 가지고 있다.
1. real image를 projecting하고 최적화 하는데 시간이 너무 오래 걸린다는 점
2. encoder의 embedding 정확성
본 논문은 StyleMapGAN : spatial dimension을 가진 중간 latent space과 AdaIN을 제안한다. 이것들은 기존 GAN보다 정확한 encoder를 제공한다.
경험적으로 우리의 방법이 최신 모델보다 다양한 이미지를 대상으로 하는 local editing과 image interpolation에서 좋은 결과를 낸다.

1. Introduction

paragraph 1

GAN의 설명과 최근 도전과제

GANs는 데이터를 통해 학습한 모델의 image synthesis를 잘 따라한다. 최근 연구는 GANs을 풍부한 semantic latent space를 가지도록 학습시키는 추세이다. 게다가 latent code를 바꿔서 output image의 대응되는 attribute를 manipulating한다. 그러나 real image를 manipulation하는 일은 여전히 도전과제다.

paragraph 2

image-to-image translation을 위한 2가지 방법

real image를 manipulating하기 위한 처음 과정은 image-to-image translation이다. 이것은 model이 사람이 준 input image를 그대로 만들어 내는 과정을 학습하기 위해서 실행한다. 그러나 이러한 방법으로 학습하기 위해서는 pre-defined task와 heavy supervision이 준비되어 있어야 한다.
다른 방법은 직접 latent code를 수정하여 최적화시키는 pretrained GAN model을 활용하는 것이다. 그러나 높은 성능의 GPU에서도 시간이 걸리는 편이다.

paragraph 3

image-to-image translation을 위한 2가지 방법

더 전형적인 접근 방법은 추가적인 encoder를 학습시키는 방법이 있다. image를 대응되는 latent code로 project하는 encoder를 의미한다.
이러한 방법은 single feed-forward manner에서 실시간 projection을 가능하게 하지만, projected image의 디테일이 소실된다는 점이 존재한다. 필자들은 앞에서 발생한 한계를 latent space에서 spatial dimension의 부재를 원인으로 본다.
spatial dimension(image의 부분 semantic을 entangled manner한 vector 형태로 압축하는 역할)을 하지 않은 encoder는 이미지를 reconstruct하기 어려워진다.

paragraph 4

StyleMapGAN설명 및 특징

이러한 문제점을 해결하기 위한 방법으로, latent space를 재표현하는 StyleMapGAN을 제시한다. vector 기반의 latent representation을 학습하는 것 대신에, explicit spatial dimension의 tensor를 이용할 것이다.(???)
논문에서는 spatial dimension에서 representation을 보이며, GAN에서 사용 가능하도록 이미지의 local semantic을 latent space로 쉽게 encode시킬 것이다.
이것은 encoder를 더 효과적으로 image-to-latent space를 수행하게 하며, 높은 model의 충실도와 실시간 projection을 제공한다.
우리의 방법은 stylemap에서 위치를 일치시켜서 특별한 영역의 image의 manipulating하는 새로운 능력을 제공한다.

2. Related work

Optimization-based editing methods

Learning-based editing methods

Local editing methods

3. StyleMapGAN

목적은 project image를 latent space로 정확하게 실시간으로 encoder하고 latent space에서 manipulate image를 하는 것이다.
stylemap을 적용한 StyleMapGAN을 보이고(spatial dimensions의 중간 latent space) stylemap을 기반으로 한 spatially variant modulation을 보인다. style은 texture만 아니라 shape도 전달된다.
이로서 encoder는 optimization-based method보다 더 정확하게 image에서 stylemap으로 embed 가능하다. 또한 stylemap은 이미지를 local editing 하도록 이끌어준다.

3.1. Stylemap-based generator

paragraph 1

Stylemap의 간단한 구조 설명

이때까지의 mapping network는 style vector을 control feature map에 제공하였다. 본 논문에서는 stylemap을 spatial dimension 이용하여 만들어내고, 실제 이미지를 더 효과적으로 projection하거나 local editing 가능하게 해준다.
mapping network는 마지막에 stylemap을 제공하기 위해서 reshape layer를 가진다. stylemap은 input을 affine parameter 형식으로 만드는 역할을 담당한다.
Synthesis network의 feature map이 output image 크기와 비슷하게 자라나면서, stylemap resizer를 제공하게 된다. stylemap resizer는 synthesis network의 feature map과 크기를 맞춰주기 위해서 convolution과 upsampling으로 이루어져 있다.
stylemap resizer는 stylemap을 학습된 convolutions을 이용하여 더 디테일하고 구조적인 style로 변환한다.

paragraph 2

Synthesis network에 stylemap이 적용되는 식

affine transform은 resized stylemaps 관련해서 modulation을 위해 이용된다.

synthesis network의 i-th layer에서 발생하는 modulation 작업을 설명한다. γi, βi : modulation parameters ⊗, ⊕ : element-wise multiplication and addition
StyleGAN에서 부가적인 input으로 들어가는 per-pixel noise를 제거하였다. 우리의 stylemap에서 이미 spatially varying input이 제공되고 stylemap만 넣으면 projection & editing 작업을 용이하게 만들어주기 때문이다.

3.2. Training procedure and losses

F,G,E,D는 mapping network(stylemap resizer가 있는 synthesis network)를 나타내기 위해서
Discriminator는 StyleGAN2을 그대로 따른다. E의 구조는 D의 minibatch discrimination 부분을 제외하고 비슷하다.
G와 E는 real image를 pixel-level과 perceptual-level 형태로 재생성한다.

3.3. Local editing

paragraph 1

local editing을 수행하는 방법들

local editing의 목표는 mask를 이용하여 reference image의 일부를 original image로 transplant하는 것이다.
mask는 어디를 수정할지를 알려주는 영역이다. 또한 마스크는 직접 영역을 지정할수도 있으며 semantic segmentation 방법을 이용한 label 기반의 editing이 가능하다.

paragraph 2

mask를 이용한 새로운 latent vector :w 의 소개

우리는 original image와 reference image를 project하고 encoder에 보내 stylemap의 w와 ~w를 얻는다.
edited stylemap :w는 w와 ~w의 alpha blending으로 구해진다.

mask m은 max pooling에 의하여 줄어든다.
보통 mask는 8x8보다 더 크기 때문에 우리는 w+ space에 stylemap을 섞어 디테일한 manipulation을 얻는다.
그러나 간단하게 하기 위해서 w latent space에 섞는 것을 설명한다. w+ latent space의 섞는 방법은 참조 A에서 설명한다.

paragraph 3

8x8 size의 mask 부터 사용하는 이유

8x8 size의 거친 형태의 mask라 할지라도 그럴듯한 이미지를 만들 수 있다. 그렇기에 사용자가 상세한 마스크를 제공해야하는 부담이 줄어든다.
이미지의 동일하지 않은 마스크에 대해 이 작업을 추가로 수정할 수 있다.

4. Experiments

우리의 방법은 이미지들을 style space에 실시간으로 효과적이게 project 시키고 real image에 특정한 영역에 manipulate를 가능하게 한다.
먼저 experimental setup과 evaluation metrics을 설명하고, stylemap의 spatial dimension을 가지고 image projection과 generation을 한 결과를 보일 것이다.
또한 다른 최근 모델과 image projection과 local editing 결과 비교를 한다.
마지막으로 더 유연한 editing scenario와 유용한 방법을 보인다.

4.1. Experimental setup

Baselines

우리의 모델과 최근 generative model을 비교한다. 비교 모델 대상은 StyleGAN2, Image2StyleGAN, In-DomainGAN, Structured Noise, Editing in Style, SEAN 이다.
공식 코드를 이용하여 수렴할 때까지 위의 모든 모델들을 scratch 부터 학습시킨다.
SEAN을 제외한 나머지 모델들에는 그들의 논문에서 사용하였던 hyperparameter을 그대로 사용하였다. 우리는 또한 ALAE와 비교할 것이다.

Datasets

CelebA-HQ, AFHQ, LSUN Car & Church dataset을 가지고 평가할 것이다. (FFHQ 대신에 CelebA-HQ을 이용하였다.)
CelebA-HQ을 이용하는 이유는 SEAN baseline을 학습하기 위한 segmentation mask를 가지고 있다.(semantic level에서 local editing accurately를 측정하기 위해서 이용한다.)
AFHQ dataset은 넓은 범위의 human face dataset을 포함한다. 우리 모델의 일반성을 보여주기에 적합하다.
최적화는 심하게 많은 시간이 걸려서, 우리는 500개의 이미지를 평가하기로 한다.

학습에 이용된 이미지 개수 CelebA-HQ : 29K AFHQ : 15K LSUN Car & Church : 16K 모든 모델을 256x256 해상도에서 충분한 시간을 들여 비교하였고, 보충 자료로는 1024x1024 FFHQ 결과를 이용하였다.

4.2. Evaluation metrics

Frechet inception distance(FID)

image generation의 성능을 평가하기 위한 지표로서, 우리는 FID를 Gaussian distribution에서 발생한 이미지와 training set을 비교하여 구한다.
몇몇의 generated samples은 training sample과 비슷하게 만들어지게 한다.
ImageNet-pretrained Inception-V3를 feature extraction으로 이용하였다.

FID_{lerp}

전체 manipulation performance를 평가하기 위해서, 우리는 interpolated sample과 training samples을 가지고 비교한다.
interpolated sample을 생성하기 위해서 500개의 test images들을 latent space에 project하고 쌍으로 latent vectors를 랜덤하게 선택하였다.
그리고 interpolation coefficient를 정할 때는 0 ~ 1 사이의 값을 임의로 정하여 linearly interpolated latent vector를 만들었다. 이렇게 interpolated samples을 training samples 수와 같이 만든다.
낮은 FID_{lerp}은 모델이 높은 충성도를 나타내고 다양한 보간 샘플을 제공함을 의미합니다.

MSE & LPIPS

projection quality를 평가하기 위해서, target image와 reconstructed image간 픽셀 단위와 perceptual 단위의 차이를 계산한다.

mean square error : MSE / learned perceptual image patch similarity : LPIPS

Average precision(AP)

locally edited image의 퀄리티를 평가하기 위한 지표
real image와 fake image 에서 이진 분류 평균으로 정확성을 측정한다. 우리는 Blur+JPEG(0.5) model을 이용하고 모든 이미지에 평가를 하였다.
낮은 AP는 실제 이미지보다 fake이미지가 더 알아보기 힘들다는 것을 의미한다.

MSE{src} & MSE{ref}

특정 semantic을 섞기 위해서, 합성된 mask를 만들기 위해서 original과 reference image의 target semantic mask를 합성한다.
MSE{src} & MSE{ref}는 original image mask를 제외한 부분과 reference image mask부분의 square error를 측정한다.
자연스럽게 mask들을 합치기 위해서, image들은 target semantic mask를 비슷하게 맞춘다. CelebA-HQ에서 부분 editing 비교를 위해 (semantic가 표시된 250 세트 테스트 이미지) 총 2500 이미지들을 이용한다.
AFHQ의 local editing을 위해서, 250세트의 랜덤 테스트 이미지를 이용한다.

4.3. Effects of stylemap resolution

paragraph 1

spatial resolution의 이점

generative model을 이용한 manipulate image를 위해서, 우리는 먼저 이미지를 latent space에 정확하게 project 가능해야 한다.

우리는 stylemap의 spatial resolution을 다르게 하여 reconstruction과 generation 성능을 비교하였다. 비교를 위하여 StyleGAN2 generator를 학습시키고 우리의 encoder model을 학습시켰다. spatial resolution 가 증가할수록, reconstruction accuarcy는 눈에 띄게 증가하였다.
이것은 우리의 spatial dimension을 이용한 stylemap이 매우 효과적으로 image projection을 시행한다는 점을 증명한다.
spatial resolution을 이용한 우리의 방법은 작은 디테일에서도 정확하게 표현한다.(ex. eyes are not blurred)

paragraph 2

다음으로 editing scenario에서 stylemap의 해상도가 주는 효과를 평가한다. 다른 이미지의 특정 부분을 섞는 작업이다.

8x8 stylemap synthesize는 가장 그럴듯한 이미지를 생성해 내는 모습을 볼 수 있다. 8x8 이상 spatial resolution을 이용하면 쉽게 edited part를 찾을 수 있다.(부자연스럽다.)

paragraph 3

게다가 FID{lerp}를 CelebA-HQ에서 다른 해상도에 대해 평가하였다. 8x8 모델이 FID{lerp} 값을 보여준다.
우리는 높은 stylemap 해상도일수록, 더 encoder로부터 얻어지는 projected된 latent vector에 더 가깝게 만들어 진다고 가정한다.
editing quality와 FID_{lerp}를 고려하였을 때, 우리는 8x8 resolution이 가장 모델이 적합하다는 것을 실험적으로 보였다.

4.4. Real image projection

표 3에서 real image projection을 평가하기 위해서 우리의 접근 방법을 다른 최신 방법과 비교하였다.

StyleMapGAN은 Image2StyleGAN보다 더 나은 reconstruction quality를 얻었다. 그러나 Image2StyleGAN은 editing을 위해 latent interpolation을 통한 가짜 이미지 생성에 실패하였다. 우리의 방법은 FID_{lerp}에서 최고 성적을 내었고, 이는 우리의 mainpulation방식이 가장 실제적인 이미지를 보여줌을 의미한다. 중요한 점은 우리의 방법이 다른 optimization 기반 방식보다 100배 빠른 모습을 보여주었다.

4.5. Local editing

local editing 성능을 3개 시점에서 평가하였다.
1. detectability : reference image mask를 잘 따르고 original image의 mask 바깥부분을 잘 보존하였는지
  
  위 그림은 우리의 방식이 2개의 이미지를 서로 매끄럽게 구성이 되었는지를 증명한다. 2 & 3. MSE{src} & MSE{ref} 표를 본다면 우리의 모델이 판별자가 fake를 찾기 어려워하는 모습을 볼 수 있다. 그리고 original과 refernce image가 잘 반영되었음을 보인다.

4.6. Unaligned tranplantation

유연하게 사용하기 위해서(unaligned transplantation) 우리의 local editing은 original, reference image의 mask를 정렬하지 않아도 된다.
edit 하려는 위치가 달라도 mask를 이용하여 일부만 edit 가능하다.

5. Discussion and Conclusion

우리가 제시한 StyleMapGAN에서는 explicit spatial dimension을 latent space로 보내는 방법을 선택하였다.
우리의 방법은 stylemap을 기반으로 함을 보이고 이전 작업에 비해서 얼마다 이득적인 모습을 보이는지 평가하였다. real image를 latent space에 project하고, 높은 퀄리티로 synthesize함을 보였다.

doublejy715 / Paper_review

StyleMapGAN : Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing #18

Abstract

1. Introduction

paragraph 1

paragraph 2

paragraph 3

paragraph 4

2. Related work

Optimization-based editing methods

Learning-based editing methods

Local editing methods

3. StyleMapGAN

3.1. Stylemap-based generator

paragraph 1

paragraph 2

3.2. Training procedure and losses

3.3. Local editing

paragraph 1

paragraph 2

paragraph 3

4. Experiments

4.1. Experimental setup

Baselines

Datasets

4.2. Evaluation metrics

Frechet inception distance(FID)

FID_{lerp}

MSE & LPIPS

Average precision(AP)

MSE{src} & MSE{ref}

4.3. Effects of stylemap resolution

paragraph 1

paragraph 2

paragraph 3

4.4. Real image projection

4.5. Local editing

4.6. Unaligned tranplantation

5. Discussion and Conclusion