2nd

1. Introduction

Generative adversarial networks(GANs)는 최근 많이 발전해 왔다. 최근 연구는 GANs이 풍부한 semantics를 표현하는 latent space를 학습하는 방향으로 진행되었다. 그렇게 되면 latent code가 바뀔 때 manipulating 형식으로 output image의 attribute가 바뀌게 된다. 그러나 manipulation을 real image에 적용하는 것은 여전히 도전과제다. GAN은 inverse mapping이 부족하기 때문에 image가 대응되는 latent code를 찾기 어렵다.
실제 이미지를 manipulating하기 위한 방법은 image-to-image 변환이 있다.(model은 이미지를 생성 하면서 synthesis하는 방법을 학습하게 된다.) 그러나, 이러한 방법은 사전에 정의된 일만 가능하고 heavy supervision 이라는 단점을 가지고 있다.(input output pair가 필요하거나 class label이 필요하다.) 또한 inference time 동안 사용자가 control하는데 한계점이 있다.
다른 접근 방법은 latent code를 optimizing하여 pretrained GAN model를 활용하는 방법이 있다. 그러나 고사양의 GPU에서도 몇분의 시간이 소요되고 optimized code가 original GAN latent space에 잘 대응되는지 보장은 없다.

더 현실적인 접근 방법은 extra encoder를 학습하는 것이다. 이 encoder는 이미지를 대응되는 latent code로 project하도록 학습한다. 이 접근은 feed-forward manner에서 실시간 projection을 가능하게 한다. 그러나 projected image는 원래 image와 완벽하게 일치하지 않는다는 단점이 있다.(target image의 detail를 살리지 못하는 projected image 발생) 본 논문에서 이 한계점을 latent space에서 spatial dimension의 부재로 인해 발생하였다고 생각하였다. spatial dimension이 없다면, encoder는 entangled vector로 image's local semantics를 함축해 버릴 것이다. 이것은 image를 reconstruct할 때 어렵게 되게 한다.(다른 말로 vector기반 표현이나 low-resolution bottleneck layer형식은 high-frequency detail을 표현하기에 적합하지 않다고 생각함)

이러한 문제의 해결 방법으로서, latent space를 대표하는 stylemap 을 활용한 StyleMapGAN을 소개한다. 아이디어는 간단하다. vector based latent representation 대신에 tensor를 explicit spatial dimentsion으로 활용하는 것이다. 논문에서 제안하는 방법은 image의 local semantics를 latent space에 쉽게 encode되도록 하여 GAN에 이용 가능한 장점을 가지고 있다. 이 속성은 image를 latent space에 더 효과적으로 project 하도록 한다. 그리고 image manipulating시 실시간으로도 high-fidelity를 제공하게 한다.

여러 dataset에서 논문의 stylemap은 projection quality를 증강시킨다. 게다가 projection, interpolation, local editing 부분에서 최신 다른 방법보다 뛰어남을 보인다.

2. Related work

2.1. Optimization-based editing methods

2.2. Learning-based editing methods

2.3. Local editing methods

5. Discussion and Conclusion

이미지를 실시간으로 editing 하기 위해서는 GANs의 Invertibility는 unconditional GAN model에서 필수적이지만 아직 완벽하진 못하다. 이를 위해서 StyleMapGAN의 stylemap에서 latent space를 spatial dimension으로 표현하는 방법을 제시한다. 논문의 방법의 기반이 되는 stylemap은 이전 접근방식과 비교를 통해 몇가지 장점을 보인다. 실시간으로 real image를 latent space에 project하는 정확도를 높이고 synthesize시 high-quality output image를 보이며 심지어 interpolation과 local editing에도 효과적임을 보였다. 본 논문보다 더 좋은 결과를 위해서 conditional GANs 방식을 사용하는 것이 future work 이다.

doublejy715 / Paper_review

[Skimming]StyleMapGAN: Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing #29

1st