AutoAD III: The Prequel -- Back to the Pixels

ESG관점에서 살펴봐야할 오늘의 논문

arxiv : https://arxiv.org/abs/2404.14412 code : https://github.com/TengdaHan/AutoAD

오랜만에 보는 시리즈물?!

AutoAD: Movie Description in Context. (CVPR 2023)
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description. (ICCV 2023)
AutoAD III: The Prequel -- Back to the Pixels. (CVPR 2024)
그런데 논문 마지막 저자 Andrew Zisserman ... 대학원생 때 Multiple View Geomerty의 저자... 대가...

자세히 톺아볼 필요가 있다!

AutoAD I

Computer Vision하는 사람들의 꿈의 기술 중 하나는 동영상을 이해 하는 기술을 개발하는 것이었다.
동영상도 어려운데 영화는 더 어렵고
특히 시각장애인을 위한 화면 해설 영상을 만드는 것은 생각보다 더 어렵다.
바로 context (영화의 맥락)에 중요한 내용을 포함해야 하는 것이다.
단순, 설명과는 다르다...

왜 video captioning보다 어려울까?

단순히 사실 그대로의 captioning이 아니라 AD (Audio Description)는 storytelling과 같다.
즉, 배우의 이름, 감정, 행동을 묘사해야 한다.
또한 영화의 흐름을 끊지도 않아야 하면서 너무 자잘한 detail이 많아서도 안되고
영화속 중요한 detail은 빠지지 않게 묘사해야 한다.
배경음악과, 각 배우들의 대사 (subtitles)에도 smooth하게 어울려야 한다.

Details

Input : Movie Frames
Output : Text
Evaluation : GT AD
Train : 이게 문제인데 마땅한 학습 set이 없다... 영화의 저작권 문제로... ㅜㅠ (단, 영화에서 음성만 쏙 뺀 data는 많다...https://audiovault.net/
있는 data를 정제하다. noising MAD
음성 인식 : whisperX
문장 분리 : sentence tokenization (by NLTK)
화자 인식 : speaker diarization, clustering with 발음

Architecture

결국 핵심은 context를 파악하여 text를 생성해야 한다는 것이고
이를 위해 previous subtitles(자막 = 배우들의 대사)과 AD context (생성된 story telling text) 를 함께 넣고
기존에 많이 하듯이 connector(Mv)를 달아서 token에 넣어서
결과적으로 GPT에 다 넣는것이다. visual tokens + ad tokens + sub tokens → LLM text with [BOS] token
vision : CLIP ViT-B-32 → 1x512 feature vector
connector : 2-layer transformer (8 attentions, 512 hidden) → 1 fc [512x768] (for gpt2)
LLM : GPT-2 (768 hidden) with 36 tokens (AD less than 36)
GPU : single A40 gpu

성능

성능이 좋아지긴 했는데 정말 쓸만한가?

논문에 나와 있는 사진
배가 침몰하는 상황에서 배의 설계도를 펼치는 장면 (blueprint).
diagram of the ship(?) , they look at the map(?)
결론에서도 who is doing what (누가 무엇을 하는지?) 에 대한 정보가 부족함.
실제로 대사 중간에 when (언제) 생성해야 하는지도 문제가 됨.

AutoAD II: The Sequel – Who, When, and What in Movie Audio Description

who : 캐릭터 이름 사전 (bank)에서 얼굴인식을 clip feature similarity로 비교하는 쌈빡(?)한 시도 ('산뜻하다'의 전라도 사투리)
when : 언제 생성해야 하는지를 결정하는 모델
what : cross-attention 및 perceiver resampler를 사용하는 새로운 모델 제안

Intro

AD 생성하는데 1분당 $30... 120분 $3600 = 1편당 대략 500만원의 비용이 발생
visualy impaired 뿐만 아니라 영어 공부하는 사람들, 운전하면서 라디오 처럼 듣는 사람들(?)을 위해 필요하다.

언제 AD를 생성해야 하는지 (대사 중간에 적절하게...) temporal segments 실제 배역의 이름과 감정과 행동이 AD에 들어가야 한다. 배경음악과 대사로 알수 있는 내용은 굳이 설명하지 않아도 된다. (오히려 몰입 방해...) 이전 맥락(context)를 알아야 한다. (굳이 2번, 3번 설명 안하게... long-take scene의 경우 한 배경에서 대화만 할경우 등) 그래서 vision + text + speech + sound등 다양한 multimodal input이 seamless하게 처리 되어야 한다. 그래서 이번 논문에서는 when, who, what에 focus하고자 한다.

What

flamingo style의 vision과 llm의 cross-attention

Who

binary classification

When

binary classification with time duration : <|t00|>,<t|01|>, ... , <|t60|>

그래서 결과는?

지갑은 중요한 소재일까? 아닐까?

결론

어찌보면 Fully Auto Movie Audio Description을 위한 많은 문제점들 중에
when, what, who 측면을 해결하고자 하는 3가지 module을 제안하고 평가한 중요한 논문이지 않을까?
그런데 정성은 그렇다 쳐도, 정량 점수가 너무 낮은것은 아닌지...

COCO cider : 142 TextCaps : 128 from Paligemma : https://huggingface.co/google/paligemma-3b-pt-224
그런데... 정말 사람 대비 몇점 정도 될까? 시각 장애인들은 만족할까?

AutoAD III: The Prequel – Back to the Pixels

2편에서 끝난게 아니야?

막상 해보니 AD는 적절한 train set도 없는데
더 큰 문제는 평가 set도 마땅한게 없다.
그래서 우리가 만들어서 open 할께!
기존에 MAD가 clip feature를 제공 했는데 , 우린 raw frames 즉 pixels를 제공할께! ( 더이상 clip에 종속되지 않아도 되...)
평가도 기존에 10 movies에 대해서 했는데 100개로 늘릴께!
평가 방법도 n-gram 기반 CIDEr에서 retrieval-based pick one correct descriptions.
그리고 드디어 GPT-2에서 OPT, LLAMA2로 바꿨어
학습은 projection matrix만 학습하자고!!!

끝으로 Q-former가 좋은 것 같아. from BLIP-2

CMD : Condensed Movies Dataset

youtube에 있는 영화 영상들
아.. sound는 있는데 ... https://audiovault.net/
이 open된 영상이랑 align은 어떻게 시키지?
아하! audio-audio align!!!

DB

Architecture

그래서 결과는?

흠.. 이게 많이 높아진게 맞을까?
오 눈물!!!
초를 불어서 끄는 것인데... 바람이 불어서 꺼진 것인지..

그래서...

아쉽게도 open된 기술 및 data들 모두 영어... 한국어를 위해서는 한국 영화에 대한 labeling 필요.
돈만 있으면 gemini pro api호출해서 만들면 되지 않을까?
결국 gap이 있다는 것을 인정하고 data를 공개하면서 여러 연구자들의 참여를 유도함.
결국 이질감이 들지 않으려면 narration tone (음성합성) movie content와의 harmony가 중요하지 않을까? (GPT-4o에서 보여준 감정이 있는 음성... 성우의 연기 tone)

paperswithlove / papers-we-read

AutoAD III: The Prequel -- Back to the Pixels #38

ESG관점에서 살펴봐야할 오늘의 논문

오랜만에 보는 시리즈물?!

자세히 톺아볼 필요가 있다!

AutoAD I

왜 video captioning보다 어려울까?

Details

Architecture

성능

AutoAD II: The Sequel – Who, When, and What in Movie Audio Description

Intro

What

Who

When

그래서 결과는?

결론

AutoAD III: The Prequel – Back to the Pixels

2편에서 끝난게 아니야?

CMD : Condensed Movies Dataset

DB

Architecture

그래서 결과는?

그래서...