long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[19] Multimodal Explanations: Justifying Decisions and Pointing to the Evidence #19

Open long8v opened 2 years ago

long8v commented 2 years ago

image paper

VQA에 그 질문에 대한 답이 왜인지 설명하는 데이터셋 VQA-X를 수집. image 우측의 MPII Human Pose (MHP) dataset은 사진에서 사람이 어떤 pose를 하고 있는지에 대한 데이터셋인데, 역시 이 또한 주변의 사물, 사람들에 많이 의존하므로 이에대한 줄글 설명을 추가한 ACT-X를 수집. (c.f. 최근에 CLEVR-X도 추가됨)

image 여기에 추가적으로 이미지 내에서 그 근거를 찾은 label을 ground truth for pointing

이러한 데이터셋 image, query에 대한 답변과 explanation을 제시하는 Pointing and Justification Explanation (PJ-X) 모델을 제안. image

results image

image

idea

related papers