paperswithlove / papers-we-read

3 stars 0 forks source link

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding #10

Open runhani opened 6 months ago

runhani commented 6 months ago

https://arxiv.org/abs/2403.15377 https://github.com/OpenGVLab/InternVideo2/

Video를 Understanding 하는 모델을 만들기 위해서는 뭐가 필요할까?

image

  1. Video Captioner
  2. Audio Captioner
  3. Speech Captioner

똑똑하게 만들기 위해서는 처음에는 쉬운 label 부터 점차 어려운 label로 (커리큘럼에 따라서)

image

Video Encoder

그래서 진짜 쓸만하냐고?

image

결론