Abstract

spatially-adaptive normalization을 제안하여, semantic layout을 input으로 넣어주면 synthesizing photorealistic images를 내놓는 간단하지만 효과적인 layer를 소개한다.
이전에는 semantic layout을 deep network의 input으로 바로 넣어줬다.(deep network는 convolution, normalization, nonlinearity layer들이 다수 쌓여있는 구조로 되어있다.) semantic information을 없애는 normalization layer의 경향이 있기 때문에 본 논문에서는 차선책을 소개한다.
이러한 문제를 해결하기 위해, 우리는 normalization layer안의 activation을 modulating 하기 위해서 input layout을 사용하는 것을 제안한다. 실험에 이용된 datasets은 이전 존재하였던 방법보다 더 나음을 증명하고, input layour의 visual fidelity와 alignment또한 다루기 가능하다.

1. Introduction

Conditional image synthesis는 조건이 부여된 input data를 가지고 실제적인 이미지를 만들어내는 작업이다.
과거의 방법들은 output image를 database의 이미지를 가지고 조각을 서로 이어 붙이는 방식으로 계산하였다. 최근 방법들은 neural network를 통해서 바로 mapping 하는 방법을 학습한다. 더 최근은 database에서 이미지를 가져오지 않고 빠르게 생성하는 방법을 찾고 있다.

우리는 conditional image synthesis 작업에서 특별한 경우에 대해 관심이 있다. 이것은 semantic segmentation mask를 photorealistic image로 바꾸는 작업이다. 이 from은 content generation과 image editing의 기능에서 많은 부분을 담당하고 있다.
이 논문에서는 convolutional, normalization, nonlinearity layer를 쌓아 만든 conventional network architecture를 보인다. 이 architecture는 최선의 차선책이다. 이유는 이전의 normalization layer는 semantic information을 없애는 경향이 있기 때문이다. 이러한 문제를 해결하기 위해서, spatially-adaptive normalization 방법을 제안한다. 이 방법은 transformation을 학습하고, 네트워크를 통해서 semantic information을 효과적으로 propagate 가능하다.

여러 데이터셋을 통해 실험하였다(COCO-Stuff, ADE20K, Cityscape).
논문의 spatially-adaptive normalization layer를 보이고, 최신 모델보다 더 좋은 결과를 보임을 증명한다.
추가적으로 이 연구는 semantic image synthesis task에서 이용된 다양한 normalization layer의 효율성을 증명한다.

m(L 공간에 HxW size를 가진 벡터)는 semantic segmentation mask이다. (L은 semantic labels을 가리키는 integers의 set로 되어 있다.) 그리고 H와 W는 이미지의 높이와 넓이를 의미한다. m이 가지는 요소들은 pixel의 semantic label을 의미한다.
우리는 input segmentation mask m 에서 photorealistic image로 바꿔주는 mapping function의 학습을 위주로 탐구하였다.

h^{i}는 deep convolutional network의 i번째 레이어의 activation을 의미한다. 이 h^{i}에는 N samples의 batch가 주어진다.
C^{i}는 레이어의 채널 수를 의미한다.
H^{i}와 W^{i}는 레이어의 activation map의 높이와 너비를 의미한다.
논문에서 'SPatially-Adaptive (DE) normalization(SPADE)' 를 새로운 conditional normalization 방법을 제시한다.
Batch Normalization과 비슷하게, activation은 channel-wise 방식으로 normalized한다. 그리고 학습된 scale과 bias를 가지고 modulated한다.
위 사진이 SPADE design이다.
1. seg map이 embedding space에 project된다.
2. modulation parameters(γ and β) 에 제공하기 위해서 conv 과정을 거친다. 과거의 conditional normalization method와 다르게 γ and β는 vector가 아니며, 공간 차원의 tensor로 이루어져 있다.
3. γ and β는 normalized activation을 하기 위해서 element-wise 형식으로 곱해지고 더해진다.

위 사진의 식을 한번에 나타내면 다음과 같다.

h의 n,c,y,x(N,C,H,W) activation value는 이전 주어진다. µ,σ : c개 채널의 mean과 standard deviation γ(m)과 β(m) 들은 학습된 normalization layer의 modulation parameter이다.

SPADE를 이용하면 segmentation map을 generator의 첫번째 레이어에 줄 필요가 없어진다. 이후에 학습된 modulation parameter은 label layout에 대하여 정보를 encoding한다.