uhhyunjoo / paper-notes

이슈로 가볍게 남깁니다.
0 stars 0 forks source link

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval #10

Open uhhyunjoo opened 2 years ago

uhhyunjoo commented 2 years ago
link
paper Disentangled Representation Learning for Text-Video Retrieval
code papers with code
uhhyunjoo commented 2 years ago

Abstract

uhhyunjoo commented 2 years ago

Underlying assumptions of Text-Video Retrieal

image

  1. 영상의 일부에 대한 설명을 이용했을 때에도 검색되어야 한다.
  2. human-generated 문장들은 hierarchical 구조를 갖고 있고, 서로 다른 관점에서 설명할 수 있다.
uhhyunjoo commented 2 years ago

Interaction Methods

image

Introduction of DRL

본 논문에서 제안하는 프레임워크 : DRL (Disentangled Representation Learning Framework)

즉, DRL 의 핵심은 a lightweight token-wise interaction 과 CDCR 을 함께 사용함으로써, TVR 에 적합한 representation 을 학습해낼 수 있다는 것이다.