GAN는 computer vision 문제에서 뛰어난 성적을 보이고 있다. 그러나 주로 수많은 training data와 computational resouce를 요구한다.
이러한 단점을 해결하기 위해서 몇몇 연구는 transfer learning scheme를 조절하는 방법을 제안한다. 그러나 이것들은 overfitting되거나 학습하기에는 너무 제한적인 경향이 있다.
이 논문에서는, 네트워크를 간단하게 discriminator의 하단 layer를 freezing함으로서 fine-tuning하는 방법을 소개한다.
freeze D는 unconditional , conditional GANs에서 모두 뛰어난 모습을 보여준다. freeze D를 StyleGAN과 SNGAN-projection에서 animal face, anime face, oxford flower, cub-200-2011, caltech-256 dataset을 테스트 해본다.
1. Introduction
paragraph 1
GANs 소개, GANs의 한계점과 이를 해결하기 위한 다양한 방법 소개
GANs는 computer vision에서 넓은 범위에서 좋은 모습을 보이고 있다. image generation, image-to-image translation, video-to-video synthesis가 그 예시이다.
그러나 최근 최신 GANs은 많은 양의 training data와 computation resources를 요구한다. 이것은 GAN의 적용 가능성에 한계를 두게 한다. 다양한 기술들은 이러한 한계점을 뛰어넘기 위해서 제안을 해오고 있다.
잘 훈련된 source model의 전이 학습 방법
target domain에 빠르게 적응하기 위한 meta knowledge 방법
훈련 과정을 용이하게 하기 위한 부가적인 방법 추가
이전 분포를 나타내는 방법
conditional generation에 대한 supervision을 주기 위한 적극적인 샘플 선택 방법
training동안 mini-batch sample을 이용하는 방법
paragraph 2
transfer learning을 많이 이용하지만, 여전히 제한된 학습 데이터 셋에서는 한계점이 보인다.
이러한 접근 방식들 중 transfer learning은 제한된 데이터와 resource 상황에서 가장 많이 쓰이는 방법이다. 최근 deep learning에서 대부분의 성공은 supervised형식으로 큰 데이터셋을 이용하여 미리 학습된 강력한 backbone network를 가지고 있거나 self-supervised 방식이 존재한다.
인식 문제에서 전이된 classifier의 성공은 잘 학습된 backbone GANs가 고려된다. 몇몇의 연구는 GAN의 transfer learning 접근 방식을 소개하였으나, 그 연구들은 limited training data 때문에 overfitting이 되거나 transfer 분포에 맞게 적용하기에는 무리한 점을 보인다.
paragraph 3
freezeD는
이 논문에서는, 간단하고 효과적인 GANs의 transfer learning baseline을 소개한다.
간단하게 networks를 fine-tuning하는 방법으로 discriminator의 lower layer를 학습시키지 않는다. 이는 뛰어난 결과를 보인다.
직관적으로 discriminator의 낮은 층은 이미지의 전반적인 특징을 학습한다. 그동안 위층은 image가 진짜인지 가짜인지 추출한 특징 정보를 이용하여 가려낸다.
우리는 이러한 특징 추출에서 시점 변환과 분류는 다르지 않다는 점을 주목하였다. 우리의 목적은 이러한 시점은 GAN에서도 유용하다는 점을 주장하며, GANs의 transfer learning에서도 적절함을 보인다.
paragraph 4
freezeD의 idea
이 논문에서는 transfer learing에 주로 초점을 맞추어, discriminator를 classifier로 생각하고 classifer를 위한 추가적 기능을 적용한다. 또한 부분적으로 discriminator의 feature extractor의 전달 가능성이 generated image의 보편적인 discriminator를 만들기 위한 좋은 시작점이 될 수 있다.
paragraph 5
우리는 다양한 architecture 과 dataset에도 freeze D를 이용하면 효과가 좋음을 증명한다. unconditional GAN에서, 우리는 FFHQ 데이터 셋을 미리 학습한 StyleGAN을 Animal Face로 fine-tune하고, conditional GAN에서는 Anime Face dataset을 Oxford Flower을 미리 학습한 ImageNet을 가진 SNGAN-projection을 fine-tuning한다.
2. Method
GANs의 목표는 대상 data distribution과 일치하는 generator를 학습하는 것이다. 전이학습에서 우리는 pre-trained source generator를 이용 가능하다.
우리는 먼저 간단하게 GAN의 전이학습과 관련해서 이전 과정들을 살펴본다.
간단하게 우리의 baseline을 소개하면 : freeze D( 이전 과정들에 비해서 효과적이며 매우 간단한 방법이다.)
마지막으로 우리는 2가지 가능한 미래 방향을 제시한다. 더 좋은 성능을
Fine-tuning
transfer knowledge에서 fine-tuning은 가장 직관적이고 효과적인 방법이다.
target model의 처음 시작하는 parameter을 source model의 pre-trained weight로 지정하는 방법이다.
해당 저자는 generator와 discriminator 둘다 fine-tuning을 하면 가장 좋은 결과를 가져온다고 발표하였다.
그러나 fine-tuning은 overfitting이 될 위험이 있다.
Scale/shift
단순한 fine-tuning은 overfiitng이 될 수 있기 때문에, normalization layer(batch normalization, BN)에 scale/shift을 적용하는 것이 제시된다.
그러나 normalization layer를 수정하는 것 만으로는 제한적이어서, source와 target distribution 간에 많은 이동이 있는 경우 효과를 보기 어렵다.
Generative latent optimization(GLO)
GAN loss는 discriminator에 의해 계산되기 때문에 제한된 데이터의 unreliable한 경우 GLO가 fine-tuning 방법으로 제시된다.
GLO는 ovrfitting을 피하기 위해서 generator와 latent code를 최적화한다. 하나의 latent code를 하나의 real sample에 매칭시키는 방법이다.
GLO가 안정적으로 모델을 개선하는 동안, 부족한 adversarial loss 때문에 blurry한 이미지를 제공한다는 단점이 있다.
3. Experiments
freezeD를 소개하는 section이다. unconditional GANs와 conditional GANs에 대해서 freezeD 적용 결과를 확인한다.
3.1. Unconditional GAN
StyleGAN을 이용하여 unconditional GANs의 결과를 증명한다. FFHQ dataset에 pretrained된 StyleGAN architecture을 이용하여 Animal Face와 Anime Face dataset에 fine-tune하는 실험을 한다.
Animal Face dataset의 모든 클래스를 이용하고(20개), 전체 1000개 클래스 중에서 처음 10개 클래스를 선택하여 Anime Face dataset을 이용한다. 또한 model은 256x256 해상도에 50000번 반복 학습한 pre-trained model을 들고오기로 한다.
original weight에서 sample 한 사진들과 Animal Face dataset에서 Cat & Dog의 가중치에 fine-tuned 된 weight를 sampling한 사진들을 비교해 보았다.
놀랍게, fine-tuning 이후에도 같은 latent code들은 같은 semantic을 공유하고 있었다. 또한 FID score를 Animal Face와 Anime Face dataset을 학습하고 vanilla fine-tuning, freeze D를 적용한 모델에 각각 평가하였다.
다양한 이전의 방법들을 가지고 freeze D를 적용하여 비교해 보았다. 추가적으로 scale/shift, GLO, MineGAN, L2-SP, featrue matching(FM)도 이용하였다. (해당 결과는 Appendix B, C에 존재한다.)
3.2. Conditional GAN
ImageNet dataset을 미리 학습한 SNGAN-projection을 이용하여 freeze D의 효과를 테스트하였다. Oxford Flower, CUB-200-2011, Caltech-256 dataset에 fine-tuning 과정을 거쳤다.
freeze D를 적용한 샘플이 fine-tuning 샘플보다 분류 별로 잘 생성하였다. 특히 2, 8 row에서 확연하게 보인다.
Freeze D 는 performance와 stability 양쪽 부분에서 뛰어남을 보인다.
4. Conclusion
전이 학습된 GANs에 freeze D를 적용하는 실험을 하였다.
freeze D는 discriminator를 feature extractor와 classifier로 분리하고 오직 classifier 영역 만을 fine-tune하게 한다. 이러한 간단한 baseline으로 이전의 여러 architecuture와 dataset에서 뛰어난 모습을 보였다.
이러한 관찰을 통해서 2가지 의문점이 보였다.
discriminator의 feature extractor의 transferability는 생성된 이미지의 탐색에 적용될 수 있는가?
Abstract
1. Introduction
paragraph 1
GANs 소개, GANs의 한계점과 이를 해결하기 위한 다양한 방법 소개
paragraph 2
transfer learning을 많이 이용하지만, 여전히 제한된 학습 데이터 셋에서는 한계점이 보인다.
paragraph 3
freezeD는
paragraph 4
freezeD의 idea
paragraph 5
2. Method
3. Experiments
3.1. Unconditional GAN
StyleGAN을 이용하여 unconditional GANs의 결과를 증명한다. FFHQ dataset에 pretrained된 StyleGAN architecture을 이용하여 Animal Face와 Anime Face dataset에 fine-tune하는 실험을 한다.
Animal Face dataset의 모든 클래스를 이용하고(20개), 전체 1000개 클래스 중에서 처음 10개 클래스를 선택하여 Anime Face dataset을 이용한다. 또한 model은 256x256 해상도에 50000번 반복 학습한 pre-trained model을 들고오기로 한다.![image](https://user-images.githubusercontent.com/54474501/134871479-36d63305-e787-4134-9125-e90d6149766d.png)
놀랍게, fine-tuning 이후에도 같은 latent code들은 같은 semantic을 공유하고 있었다. 또한 FID score를 Animal Face와 Anime Face dataset을 학습하고 vanilla fine-tuning, freeze D를 적용한 모델에 각각 평가하였다.![image](https://user-images.githubusercontent.com/54474501/134872345-85d9cee0-7a10-4051-b4e8-5528c2723b7c.png)
다양한 이전의 방법들을 가지고 freeze D를 적용하여 비교해 보았다. 추가적으로 scale/shift, GLO, MineGAN, L2-SP, featrue matching(FM)도 이용하였다. (해당 결과는 Appendix B, C에 존재한다.)
3.2. Conditional GAN
4. Conclusion