long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[29] Grounded Language-Image Pre-training #34

Open long8v opened 2 years ago

long8v commented 2 years ago

image

paper, code

TL;DR

Details

preliminaries

Data

보통의 object detection 문제에서 classification loss는 아래와 같이 정의됨. image

여기서 classification 대신 Image Encoder 따로 prompt를 처리하는 Language Encoder를 따로 둔 뒤 이의 내적이 alignment score가 되게함. 이게 classifier logit을 대체하게 됨.

image

그리고 똑같이 loss에 넣으면 되는데 그냥 클래스보다 차원이 추가될 것임.(multiple data, tokenization,[no_obj] token).

loss는 binary sigmoid loss를 사용하면 됨.

image

detection 모델로는 FasterRCNN, DynamicHead(SOTA), image encoder는 Swin-T, Swin-L를 사용했고 textual encoder는 BERT를 사용했음.

image

deep fusion은 별건 아니고 각자의 encoder에서 나온걸 합치는게 아니라(late-fusion이라고 부름.) 레이어 쌓아가면서 정보를 교환하겠다는 취지. 이때 BERT는 이미 있는레이어 위에 새로운 레이어를 쌓아서 그 위의 layer들의 output을 교환함.

Result

image