chullhwan-song / Reading-Paper

151 stars 26 forks source link

A Style-Based Generator Architecture for Generative Adversarial Networks #83

Open chullhwan-song opened 5 years ago

chullhwan-song commented 5 years ago

https://arxiv.org/abs/1812.04948

chullhwan-song commented 5 years ago

Abstract

StyleGAN

  • ProGAN의 업그레이드 버전
  • ProGAN의 각 layer는 독특한 특징을 있는데, 이는 곧 이점(potential benefit)으로 다가온다. 즉, 각각의 layer에서 각기 다른 visual feature들을 control 할수 있다는 것.
  • 낮은 layer일수록 영향을 주는 feature가 커진다.
  • 이 연구에서는 이러한 layer들을 3가지로 divide
    • Coarse – resolution of up to 8^2 – affects pose, general hair style, face shape, etc
    • Middle – resolution of 162 to 32^2 – affects finer facial features, hair style, eyes open/closed, etc.
    • Fine – resolution of 642 to 1024^2 – affects color scheme (eye, hair and skin) and micro features.

      Mapping Network

  • 이 단계의 목표는, 입력벡터를 다른 비주얼 속성을 control하기 위해 intermediate vector로 encode하는 것.
    • 초기에 보통 random latent vector를 집어 넣는데. 이를 대신할 만한 network가 바로 "Mapping Network" 란 용어로 쓰는듯..
    • ProGAN의 단점에서 언급한거와 같이 하나의 속성을 control하기 위해서는 단지 하나의 input값으로 control되어 있음 좋은데..실제적으로는 여러가지 속성과 얽혀있음(feature entanglement).
    • 하지만, 여기서 같은 아닌 또하나의 network(여기서 말하는게 mapping network인듯)을 사용하면, raining data distribution을 따르지 않고 feature간의 상관관계를 줄일수 있는 vector를 생성할 수 있음. image
    • W의 512차원의 output vector(512x1)
    • 8-layer MLP로 구성

Style-based generator == Style Modules (AdaIN)

Removing traditional input

Truncation trick in W

StyleGAN의 전체 구조 > 자세히 나온듯.

image

실험