We show the suitability of the BoW representation based on local CNN features for image retrieval
contribution
이미지 검색에서 cnn 기반 SOTA 알고리즘 리뷰
bag of local convolutional features (BLCF), which permits fast image retrieval via an inverted index.
assignment map (=maps image pixels ito their corresponding visual words.)
reranking - ROI(multiple region) 에 대한 assignment map 이용, query expansion
Related Work
First CNN Approaches for Retrieval
features from a pre-trained CNN for image classification
유명한 fc feature = fully connected layers extracted from pre-trained CNN classification model
Alexnet/VGG.
이러한 CNN 기반 feature와 이전 handcrafted feature 방법을 join
따라서, 이 방법은 learnable하지 않음.
Bag of Word base 방법들, FV, VLAD, BOW..
Bag of Word 방법은 fc에서도 가능하지만, 워낙 sparse하고 semantic 해서..
convolution feature map(3d feature)를 local descriptor 개념으로 이용 > 이를 input으로 받는다는 의미.
보통 이러한 방법을 aggregated pooling feature란 개념으로 사용.
이미지안의 sub region을 이용하려 결합하는 방법
MAC (=Maximum Activation of Convolutions) feature
이후, 이를 sub region단위로 MAC feature를 계산하는 방법 도입 이게 R-MAC(Regional Maximum Activation of Convolutions)
다시 업그레이드하여, 이전에는 이러한 feature는 learn-able하지 않았음. 즉, 학습이 끝난 모델에서 conv feature를 추출하여 진행 즉, handcrafted feature
기본적으로 R-MAC은 ROI 단위로 합치기 전에 PCA를 돌려 reduction/whitening을 시도함. 하지만, 이 단계는 학습이 가능하지 않음.
이를 가능하기 위해, linear transformation layer로 대체(DIR은 앞에 shifting이 하나 더 있음 - 제생각엔 이는 그닦에 필요할것같지는 않음)
종합하면, learnable하게 만든 R-MAC과 fine-tuning 기법을 도입하여, landmark benchmark set에서 최고 성능을 냄 = End to End training
마찬가로, MAC feature 방법으로도 가능함.
fine-tuning 방법은 instance search개념이기 때문에 대부분, softmax가 아닌 metric learning을 의미함.
Image Retrieval Benchmarks
Bag of Words Framework
local descriptor로써의 CNN feature - 위에서 언급했듯이 fc 이전의 conv feature map(3d)를 의미
기본적으로 이 개념은 SIFT가 나오면서 bag of word 기법과 joing하면서 매우 유명한 개념임. 즉, 이 개념과 일치시키면 될듯~
BLCF(Bag of Local Convolutional Features)
Image Retrieval
Initial search : 이제 bag of word 방법으로 conversion 했으니, invert file기법으로 매우 빠른 후보 검색이 가능함. - local & global = Top T(N)
Local reranking : top n에서, re-ranking
W and H are the width and height of the assignment map. We use a sliding window strategy directly on the assignment map with 50% of overlap in both directions.
http://doras.dcu.ie/22134/1/ios-press-object.pdf