Open doublejy715 opened 3 years ago
워낙 유명한 논문이기에 잘 설명된 reveiw를 참조하였습니다. Link 1.
목표 : 레이블이 없는 데이터셋으로 재 사용 가능한 feature를 학습하는 것이 목표이다. 당시 한계점 : computer vision 영역에서 GAN을 이용하면 의미 없는 이미지를 생성하기도 하며 GAN이 어떻게 학습하는지 알기 어려운 한계점이 존재한다.
본 논문의 기여
보통 비지도 학습은 데이터를 클러스터링하여 분류 스코어 향상에 쓰일 수 있다. CV 면에서는 이미지 패치의 계층적 클러스터링이 가능하다. 오토 인코더 학습에도 이용한다.
간단하게 CNN구조를 활용한다.(이전 GAN은 MLP구조였다.)
모든 레이어에 batch norm을 적용한 결과 sample oscillation과 model instability가 발생 generator의 output과 discriminator의 input layer에는 적용하지 않았다.
참고 홈페이지
워낙 유명한 논문이기에 잘 설명된 reveiw를 참조하였습니다. Link 1. Link 2.
Abstract
1. Introduction
목표 : 레이블이 없는 데이터셋으로 재 사용 가능한 feature를 학습하는 것이 목표이다. 당시 한계점 : computer vision 영역에서 GAN을 이용하면 의미 없는 이미지를 생성하기도 하며 GAN이 어떻게 학습하는지 알기 어려운 한계점이 존재한다.
본 논문의 기여
2. Related Work
2.1 Representation Learning From Unlabeled Data
보통 비지도 학습은 데이터를 클러스터링하여 분류 스코어 향상에 쓰일 수 있다. CV 면에서는 이미지 패치의 계층적 클러스터링이 가능하다. 오토 인코더 학습에도 이용한다.
2.2 Generating Natural Images
2.3 Visualizing the internals of CNNs
3. Approach and model architecture
CNN구조 활용이 중심 아이디어다.(이전 GAN은 MLP구조였다.)
idea 1.
spatial pooling 함수를 stride convolution으로 대체한다. conv layer를 통하여 spatial down/up sampling을 학습한다. 이는 generator와 discriminator에 각각 적용하였다.
idea 2.
full connected layer를 제거한다. 대신에 global average pooling을 사용한다.
GAP는 모델의 안정성을 높이지만 수렴 속도에 안좋은 영향을 미친다.
idea 3.
Batch Normalization을 이용하여 안정하게 학습한다. Batch Normalization을 통해서 좋은 초기화를 유도하고 깊은 모델들에서 gradient의 흐름을 도와준다.
4. Details of adversarial training
Generator
input : z vector(1x100) input이 'wxh' 형태가 아니기 때문에 image feature-map 형태로 만들어 주는 'Project and reshape' 과정이 필요하다.
feature map의 크기를 키워야 하기 때문에 fractionally-strided convolution(dilated convolution)이 필요하다.
Detector
5. Empirical