Open uhhyunjoo opened 2 years ago
link | |
---|---|
paper | Disentangled Representation Learning for Text-Video Retrieval |
code | papers with code |
Cross-modality interaction
, 즉, 서로 다른 모달리티 간의 상호 관계를 잘 나타내는 것인데, 이 interaction 을 계산할 때 쓰이는 구성 요소들이 성능에 어떻게 영향을 미치는 지에 대한 연구는 거의 없었다.DRL
)를 제안한다.WTI
)CDCR
)
본 논문에서 제안하는 프레임워크 : DRL (Disentangled Representation Learning Framework)
즉, DRL 의 핵심은 a lightweight token-wise interaction 과 CDCR 을 함께 사용함으로써, TVR 에 적합한 representation 을 학습해낼 수 있다는 것이다.