Open runhani opened 2 months ago
ArXiv : https://arxiv.org/abs/2407.15850 Code : https://github.com/Jyxarthur/AutoAD-Zero TV-AD : https://www.robots.ox.ac.uk/~vgg/research/autoad-zero/#tvad
얼굴 검출 : RetinaFace 얼굴 인식 : ArcFace (TH : 0.2) 등록 DB : IMDb character bank FR → VideoLLaMA2-7B : colored circle with 8 frames
MAD-Eval : Movie Audio Descriptions CMD-AD : Condensed Movie Dataset TV-AD : TV series (프렌즈, 빅뱅이론 등)
CIDEr : TF-IDF 그러나 정말 이 지표를 믿을만한가? CRITIC : 배우 인식 성능 LLM-AD-Eval : LLM을 심판으로 활용해서 생성된 AD와 GT를 비교하는 방법 (1-5점 사이)
Some Links
ArXiv : https://arxiv.org/abs/2407.15850 Code : https://github.com/Jyxarthur/AutoAD-Zero TV-AD : https://www.robots.ox.ac.uk/~vgg/research/autoad-zero/#tvad
AD는 뭐예요?
1,2,3 다음에 4가 아니라 zero라니?!
Details
장점
단점
Ablations
기타
Video Understanding 모델 관련 논의해야 하는 내용들
AutoAD 관련 논의해야 하는 내용들