paperswithlove / papers-we-read

3 stars 0 forks source link

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning #26

Open JihoonJ opened 6 months ago

JihoonJ commented 6 months ago

image

Links

  1. Archive: https://arxiv.org/pdf/2404.16994
  2. Code: https://github.com/magic-research/PLLaVA

why?

Summary (by claude3)

  1. 기존 Vision-language pre-training(이미지-언어 사전학습 모델)을 비디오 작업에 직접 적용하면 성능이 저하되는 문제가 있음.
    • 이미지 데이터로 사전학습된 모델을 비디오 데이터셋으로 미세조정할 때, 성능이 정체되거나 오히려 떨어지는 현상이 관찰됨
    • 이는 학습된 visual feature 중 높은 norm 값을 가진 특징들의 영향 때문임
  2. 특징 분포의 극단값 영향을 줄이기 위해 시간 차원에 걸쳐 특징 값을 부드럽게 하는 풀링 전략을 제안함
    • 높은 norm 값 특징의 지배적인 영향을 줄이기 위해 시간 차원에 걸쳐 특징 분포를 부드럽게 하는 간단한 풀링 기법 제안
    • 이를 통해 극단적인 특징값의 영향을 완화시킴
  3. 제안된 PLLaVA 모델이 비디오 질의응답 및 캡션 생성 벤치마크에서 최고 성능을 달성하며, 이전 모델 대비 9~14.5% 향상된 결과를 보임
    • 제안 기법을 적용한 PLLaVA 모델이 최신 비디오 QA, 캡셔닝 벤치마크에서 가장 높은 성능 기록
    • Video ChatGPT 벤치마크에서 이전 SOTA 모델 대비 9% 향상
    • MVBench 다중선택 벤치마크에서 14.5% 정확도 향상

Highlights

Issues on Image MLLM Adaption to Video Frame

PLLAVA

Evaluation

image