long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[53] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets #59

Open long8v opened 2 years ago

long8v commented 2 years ago
image

paper

TL;DR

-> GAN이라 이미지가 '1'로 들어갔다는건 없음! 즉, VAE 처럼 Reconstruct하는게 아니라 주어진 이미지가 fake인지 real인지 구분하면서 학습되는거임! 그러므로 어떤 latent code c가 3으로 들어갔으면 3같은 그림이 나오도록 mutual information을 넣어주는 듯. 즉 걱정하는 상황은 없는듯.

  1. c로 들어가는 category와 continuous의 개수를 정할수는 있지만 애초에 각각이 뭘 배울지는 정할 수 없는거 아닌가?? 왜 정할 수 있는것처럼 해놨지?? 사후적으로 알게되는게 아닌지.…

-> 정할 수 없는게 맞는듯. 결과론적으로 해석했을 때 우리가 생각하는 feature들을 code들이 잘 담고 있다고 썰을 푼거 인듯.

Details

mutual information

image

X와 Y가 독립이어서 $P_{X,Y}(x,y)=P_X(x)P_Y(y)$면,

image

엔트로피에 대한 식으로 쓰면

image

Variatitonal Mutual Information Maximization

image

여기서 posterior Q에 대해 sample을 뽑아야 하는 부분이 있는데 아래 lemma를 통해 sample도 안해도 됨.

image

해석하자면 어떤 함수 f(x, y)를 x와 x가 주어졌을 때의 y에 대해 기대값을 구하면 x와 x가 주어졌을때 y와, x'(y가 주어졌을 때의 x)에 대해 f(x' y)기대값을 구한 것과 같다.

우리의 lower bound는 아래와 같이 정의됨

image

최종적인 loss는 GAN loss에 mutual information lower bound를 뺀 것! (MI는 높을 수록 좋음)

image