uhhyunjoo / paper-notes

이슈로 가볍게 남깁니다.
0 stars 0 forks source link

[ICCV 2019] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips #2

Open uhhyunjoo opened 2 years ago

uhhyunjoo commented 2 years ago
link
paper HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips
code papers with code
etc official web page
uhhyunjoo commented 2 years ago

Abstract

uhhyunjoo commented 2 years ago

Figure 2

Dataset

Table 1

Model

Figure 1

Embedding function

image

Similarity

image

Loss

image

Sampling strategy

Experiments

Table 3

Table 4

Table 5

Table 6

Figure 3

saturation 이란, activation function 의 gradient 가 0에 가까워져 weight 가 더 이상 update 되지 않는 현상을 의미함. (일종의 gradient vanishing) 해당 논문에서 activation function 으로 사용하는 sigmoid function 은 saturation 현상이 발생할 수 있다는 단점을 갖고 있음.

🤔 데이터의 양과 saturation 문제는 직접적인 관련이 있는 것인가? gradient vanishing 은 layer 갯수와 더 직접적인 관련이 있는 게 아녔나? 그리고 해당 모델은 왜 relu 같은 함수가 아닌, saturation 이 발생할 수 있는 sigmoid 를 사용하는가?

Figure 4

Table 7

Figure 5

Figure 6

uhhyunjoo commented 2 years ago

추가로 봐야할 것들

embedding model 관련 논문

max-margin ranking loss 관련 논문

negative sampling strategy 관련 논문

Appendix 에 있는 positive pair sampling strategy 에 대한 empirical analysis

uhhyunjoo commented 2 years ago

ViT 관련

논문 : An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

image

image

image

image

이 그림에서, patches 들의 수가 sequence length 를 뜻한다...!

uhhyunjoo commented 2 years ago

Feature 관련