뭔가 sampling을 잘해서 image / video를 같은 방식으로 처리할 수 있는 논문인듯
object detection의 PE와 pretraining의 PE 사이를 채워주기 위해 -> Cropped PE / Focal Loss for Constrative loss
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers에서 보였다는데 논문을 찾을 수가 없넹
Architecture
main contribution인 two-pass learning
captioning은 causal masking을 필요로 하고(conditioned 표현이 필요), contrastive는 text 전체의 표현이 필요.
걍 decoder로 masking 다르게 해서 두번 forward! (masking / CA 아니면 걍 이게 encoder 아니묘 ㅋㅋㅋ)
~CoCa도 text encoder 같은걸 가지고 decoder라고 표현했는데 여기도 사실상 CoCa랑 거의 유사한데 Unimodal Text Decoder + MultiModal Text Decoder가 같은 weight를 가지는거라 봐도 될듯!~
CoCa는 text decoder에 causual masking이 있는 self-attention을 추가했음! 얘는 forward 한번만 해도 됨.
Loss
Captioning loss
Focal Constrative Loss
contrastive learning은 보통 bs가 커야함. CE보다 더 challenging한 데이터로부터 배우자 -> focal loss 사용
Video 처리
Result
Ablations
captioning loss를 사용하니까 text2image는 성능이 더 좋고 image2text는 성능이 더 낮음. generation이 더 나은 text 표현을 만든 듯 -> 이거 잘 모르겠음.. 쌍방 아닌가?!
paper
TL;DR
Details
Related works
Video 처리 -> TubeViT
object detection의 PE와 pretraining의 PE 사이를 채워주기 위해 -> Cropped PE / Focal Loss for Constrative loss
Architecture
main contribution인 two-pass learning captioning은 causal masking을 필요로 하고(conditioned 표현이 필요), contrastive는 text 전체의 표현이 필요. 걍 decoder로 masking 다르게 해서 두번 forward! (masking / CA 아니면 걍 이게 encoder 아니묘 ㅋㅋㅋ) ~CoCa도 text encoder 같은걸 가지고 decoder라고 표현했는데 여기도 사실상 CoCa랑 거의 유사한데 Unimodal Text Decoder + MultiModal Text Decoder가 같은 weight를 가지는거라 봐도 될듯!~ CoCa는 text decoder에 causual masking이 있는 self-attention을 추가했음! 얘는 forward 한번만 해도 됨.
Loss
Captioning loss
Focal Constrative Loss contrastive learning은 보통 bs가 커야함. CE보다 더 challenging한 데이터로부터 배우자 -> focal loss 사용
Video 처리
Result
Ablations
작아도 잘한다.