data : proposed TV Feedback // test는 AMT로 human 정제까지 함.
evaluation : binary accuracy(정확한 pair인지), text span(precision, exact match로 한건지 어떤지 잘 모르겠네), feedback이 정확한지는 NLI(BART-NLI 모델 사용), IoU .75
result : finetune PALI가 가장 성능이 좋았고 ood 데이터셋에서도 잘 동작함을 확인함
contribution : 내가 원하던 연구! 데이터셋 공개!
etc. :
Details
Image source
Proposed ConGen
1) Spcay로 POS를 뽑음. object(noun), attribute(adjective), action(verb), spatial relations 이렇게 4개의 분류로 나눔
2) PaLM2를 사용해서 (a) contradiction caption을 만들고 (b) 왜 contradiction인지 detailed caption을 만들고 (c) 캡션 내에 어떤 요소가 틀린지 pinpoint하라고 하고 (d) visual bounding box를 뽑으라고 함.
3) 생성된 contradiction caption이 정말 원래 캡션과 다른지 구분하기 위해서 Textual Entailment model을 사용해서
4) GroundingDINO를 사용해서 PALM2가 뽑은 bounding box의 textual label과 bounding box를 뽑음
이렇게 뽑은 셋을 Textual Visual Feedback 데이터라고 부름
SeeTrue-Feedback benchmark
SeeTrue dataset에 기반해서 위의 ConGen과 비슷한 방식으로 뽑은 뒤에 AMT에 태워서 2008개의 샘플을 인간이 검수함.
paper, page, dataset
TL;DR
Details
Image source
Proposed ConGen
SeeTrue-Feedback benchmark
SeeTrue dataset에 기반해서 위의 ConGen과 비슷한 방식으로 뽑은 뒤에 AMT에 태워서 2008개의 샘플을 인간이 검수함.
Evaluation metrics
Result
최신 VLM모델들에게 아래와 같이 질의
limitation of model prediction