uhhyunjoo / paper-notes

이슈로 가볍게 남깁니다.
0 stars 0 forks source link

[arXiv 2021] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval #5

Open uhhyunjoo opened 2 years ago

uhhyunjoo commented 2 years ago
link
paper CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
code papers with code
uhhyunjoo commented 2 years ago

Abstract

uhhyunjoo commented 2 years ago

CLIP4Clip Framework

image

Video Encdoer, Text Encoder, Similarity Calculator 이렇게 세 부분으로 순서대로 설명해보겠당

Video Encoder

이때 두 가지 종류의 projection (2D linear, 3D linear)를 사용하고 비교해보았는데, 2D 는 frames 간의 temporal information 을 무시하기 때문에 temporal feature extraction 을 enhance 시키기 위해 3D 를 도입했다.

그런데 LSMDC 빼고는 성능이 3D 가 더 안 좋음... 왜지 ? ? 연구진의 추측 : CLIP이 3D linear 가 아닌 2D linear 로 학습되었고, 3D linear 에 대한 discrepant initialization 이 temporal information 을 학습하기 힘들게 만들었다. 추후 연구에서 대규모 video-text datset 으로 pretrain 해볼 것이다.

오늘의 단어