paperswithlove / papers-we-read

3 stars 0 forks source link

AutoAD III: The Prequel -- Back to the Pixels #38

Open runhani opened 4 months ago

runhani commented 4 months ago

ESG관점에서 살펴봐야할 오늘의 논문

arxiv : https://arxiv.org/abs/2404.14412 code : https://github.com/TengdaHan/AutoAD

오랜만에 보는 시리즈물?!

자세히 톺아볼 필요가 있다!

AutoAD I

왜 video captioning보다 어려울까?

Details

image

Architecture

image

성능

image

runhani commented 4 months ago

AutoAD II: The Sequel – Who, When, and What in Movie Audio Description

image

Intro

언제 AD를 생성해야 하는지 (대사 중간에 적절하게...) temporal segments 실제 배역의 이름과 감정과 행동이 AD에 들어가야 한다. 배경음악과 대사로 알수 있는 내용은 굳이 설명하지 않아도 된다. (오히려 몰입 방해...) 이전 맥락(context)를 알아야 한다. (굳이 2번, 3번 설명 안하게... long-take scene의 경우 한 배경에서 대화만 할경우 등) 그래서 vision + text + speech + sound등 다양한 multimodal input이 seamless하게 처리 되어야 한다. 그래서 이번 논문에서는 when, who, what에 focus하고자 한다.

What

Who

When

그래서 결과는?

image image

결론

runhani commented 4 months ago

AutoAD III: The Prequel – Back to the Pixels

2편에서 끝난게 아니야?

image

CMD : Condensed Movies Dataset

image image

DB

image

Architecture

image

그래서 결과는?

그래서...