alexnet, vgg, resnet등에서 이를 이용하여 segmentation task를 푸는게 가능
사실 이 그림 하나로 설명이 다 됨
따라서, base 구현은 그닦 어렵지 않을듯~
Fully convolutional networks
각 convnet는 feature map 즉, c x w x h 차원
spatial information = wxh
feature = c
Convnets are built on translation invariance
Their basic components (convolution, pooling, and activation functions) operate on local input regions, and depend only on relative spatial coordinates
기존 이미지분류에 쓰이는 alexnet/vgg등에서 맨 뒤에 존재하는 fully connected layer를 제거하고 convolution layer로 대체 (1x1)하는 형태 = convolutionalization
object에 대한 위치 정보를 보존된다.다음그림이 인터넷에..더 좋음.
실제 이를 원본크기로 re-scale하면됨
bi-linear interpolation 가능하지만, 학습상에서는 deconvolution을 이용한듯.. 하지만 upsampling할때 최근에 bi-linear interpolation도 많이 이용하는듯~
실제로 skip-connection을 이용하여 더 성능 향상
실험
결론
FCN 이후에 매우 강력한 알고리즘이란걸 알게됨 - 난 약식으로 리뷰하지만,
인용지수만보더래도..
대부분의 segmentation, localization에서 여향을 미쳤다고 봄(개인 의견)
https://arxiv.org/abs/1411.4038