GAN은 진짜 이미지와 가짜 이미지 판별을 위해서 generator와 discriminator로 구성되어 있다.
최근에는 GANs는 풍부한 semantic을 가진 latent space를 학습하고 다양한 latent code는 대응되는 특성들의 manipulation을 조절하여 edited image를 만든다.
그러나 여전히 실제 이미지를 manipulation 하는 능력이 부족하다. 그 이유는 GANs은 input으로 들어온 image를 latent code로 표현하는 능력이 부족하기 때문이다.
image를 latent space로 mapping하려는 많은 시도가 존재하였다. 이를 주로 GAN inversion이라 한다. GAN외에 추가적인 encoder를 학습하거나 직접 이미지의 latent code를 최적화하는 방법을 이용한다.
그러나 이러한 방법들은 latent vector에서 input image의 픽셀 정보를 재 생성 하는데 초점이 맞춰져 있다.
inverted code의 속성에서 몇 가지 의문점이 발생한다. inverted code는 원래의 GANs의 latent space에 존재하는가? / inverted code는 target image를 의미상으로 나타내고 있는가? / inverted code를 학습된 GANs에 reusing 하면 image editing하는데 도움이 되는가? / code invert를 위해서 어떤 이미지라도 잘 학습된 GANs을 사용해도 괜찮은가?
이러한 질문에 대답하기 위해서는 GANs의 깊은 이해도 필요하겠지만, 다재다능한 image editing 능력을 위해서 pre-trained GAN model을 해석할 필요가 있다.
본 논문에서는 좋은 GAN inversion 방법을 보인다. pixel level 단위로 이미지를 재 생성하도록 하며 semantic 정보가 encode된 latent space에 inverted code로 이미지를 바꾸는 방법을 찾아보았다.
저자들은 semantically meaningful code를 'in-domain code'라고 불렀다. 이것들은 GANs에 의해 학습되어진 semantic domain이기 때문이다.
또한 in-domain code가 image editing하는데 더 나은 결과를 가져왔다. in-domin code를 풍부한 정보를 가진 GAN model에 resuing하면 image editing에 도임이 된다는 것 또한 발견하였다.
마지막에는 pixel level과 semantic level부터 input image를 복원하기 위해 in-domain GAN inversion의 접근 방법을 제시한다.
먼저 novel domain-guided encoder를 학습시킨다. 이 encoder는 image space에서 latent space로 mapping하기 위해 이용한다. 물론 encoder는 in-domain code로 만들어야 한다.
다음으로 픽셀 값을 잘 reconstruct 하기 위한 encoder를 이용하여 inverted code의 instance-level에 영향을 주지 않고 regularization을 실시하였다.
Title / Abstract / Figure
Introduction / Conclusion / Figure
1. Introduction
GAN은 진짜 이미지와 가짜 이미지 판별을 위해서 generator와 discriminator로 구성되어 있다.
최근에는 GANs는 풍부한 semantic을 가진 latent space를 학습하고 다양한 latent code는 대응되는 특성들의 manipulation을 조절하여 edited image를 만든다.
그러나 여전히 실제 이미지를 manipulation 하는 능력이 부족하다. 그 이유는 GANs은 input으로 들어온 image를 latent code로 표현하는 능력이 부족하기 때문이다.
image를 latent space로 mapping하려는 많은 시도가 존재하였다. 이를 주로 GAN inversion이라 한다. GAN외에 추가적인 encoder를 학습하거나 직접 이미지의 latent code를 최적화하는 방법을 이용한다.
그러나 이러한 방법들은 latent vector에서 input image의 픽셀 정보를 재 생성 하는데 초점이 맞춰져 있다.
inverted code의 속성에서 몇 가지 의문점이 발생한다. inverted code는 원래의 GANs의 latent space에 존재하는가? / inverted code는 target image를 의미상으로 나타내고 있는가? / inverted code를 학습된 GANs에 reusing 하면 image editing하는데 도움이 되는가? / code invert를 위해서 어떤 이미지라도 잘 학습된 GANs을 사용해도 괜찮은가?
이러한 질문에 대답하기 위해서는 GANs의 깊은 이해도 필요하겠지만, 다재다능한 image editing 능력을 위해서 pre-trained GAN model을 해석할 필요가 있다.
본 논문에서는 좋은 GAN inversion 방법을 보인다. pixel level 단위로 이미지를 재 생성하도록 하며 semantic 정보가 encode된 latent space에 inverted code로 이미지를 바꾸는 방법을 찾아보았다.
저자들은 semantically meaningful code를 'in-domain code'라고 불렀다. 이것들은 GANs에 의해 학습되어진 semantic domain이기 때문이다.
또한 in-domain code가 image editing하는데 더 나은 결과를 가져왔다. in-domin code를 풍부한 정보를 가진 GAN model에 resuing하면 image editing에 도임이 된다는 것 또한 발견하였다.
마지막에는 pixel level과 semantic level부터 input image를 복원하기 위해 in-domain GAN inversion의 접근 방법을 제시한다.
먼저 novel domain-guided encoder를 학습시킨다. 이 encoder는 image space에서 latent space로 mapping하기 위해 이용한다. 물론 encoder는 in-domain code로 만들어야 한다.
다음으로 픽셀 값을 잘 reconstruct 하기 위한 encoder를 이용하여 inverted code의 instance-level에 영향을 주지 않고 regularization을 실시하였다.
Discussion and Conclusion
Words
manipulation
Image의 identity를 유지한 채로 semantic을 변경한다.