Composing Text and Image for Image Retrieval - An Empirical Odyssey

Abstract

image retrieval task
다만 여기서는 only vision based는 아니고, multi-modal
문제는, 기본 입력이미지가 들어오고 이미지 기준으로 "수정되길 바라는 부분"을 text 정보와 주는 케이스
예를 들어, 이 이미지와 비슷한데 색상이 다른 빨간색 셔츠(실제 이미지는 노란색(다른색)이면...)를 찾아달라..
- query == reference image plus modification text
모 이런 task인것같다.
residual connection을 통한 이미지와 텍스트 결합한 새로운 방법 제안.
- a new way to combine image and text through residual connection
서로 다른 dataset 적용
- Fashion-200k, MIT-States, new synthetic dataset we create based on CLEVR