Open runhani opened 4 months ago
언제 AD를 생성해야 하는지 (대사 중간에 적절하게...) temporal segments 실제 배역의 이름과 감정과 행동이 AD에 들어가야 한다. 배경음악과 대사로 알수 있는 내용은 굳이 설명하지 않아도 된다. (오히려 몰입 방해...) 이전 맥락(context)를 알아야 한다. (굳이 2번, 3번 설명 안하게... long-take scene의 경우 한 배경에서 대화만 할경우 등) 그래서 vision + text + speech + sound등 다양한 multimodal input이 seamless하게 처리 되어야 한다. 그래서 이번 논문에서는 when, who, what에 focus하고자 한다.
COCO cider : 142 TextCaps : 128 from Paligemma : https://huggingface.co/google/paligemma-3b-pt-224
끝으로 Q-former가 좋은 것 같아. from BLIP-2
흠.. 이게 많이 높아진게 맞을까?
오 눈물!!!
초를 불어서 끄는 것인데... 바람이 불어서 꺼진 것인지..
ESG관점에서 살펴봐야할 오늘의 논문
arxiv : https://arxiv.org/abs/2404.14412 code : https://github.com/TengdaHan/AutoAD
오랜만에 보는 시리즈물?!
자세히 톺아볼 필요가 있다!
AutoAD I
왜 video captioning보다 어려울까?
Details
Architecture
성능