long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[121] Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities #131

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper

TL;DR

Details

Task set-up

image

처음 제안한거라 setup자체가 중요한데 잘보면 context image와 이에 대한 질문이 있음. 즉 걍 image retrieval이 아님! image와 query를 잘 조합해서 wikipedia에서 답에 해당되는 entity page를 찾아내는게 문제 셋업임.

Data

두 가지로 나눌 수 있는데,

image

그리고 뭐 사람 써서 label disambiguation 같은걸 했다고 하넹

evaluation

seen entity / unseen entity에 대한 정확도의 조화평균

image

Baseline

$x^t$ : input intent $x^p$ : input content $p(e)$ : entity images $t(e)$ : entity text

image image

Result

image image

두개를 비교해보면 PALI는 질문을 더 잘 이해하지만 더 generic하게 답변하는 경우가 있었다.

image