Open long8v opened 3 weeks ago
paper, code
(1) Extracting objects from candidates, references, and images
(2) Object Filtering
fork or knife
(3) Object matching SBERT 사용 bipartite matching
최종 metric은 아래와 같이 "가장 최소의 matching similarity"
HAT은 COCO 이미지에 대해서 직접 만듦. (TEST 400) 여기서 CHAIRs는 accuracy라고 함 (AP와 accuracy를 같은 테이블에 두어도 되는건가?)
no-caps에서 우수한 성적 여기 베이스라인이 50이어서 CLIPScore에서 재듯이 두개를 비교적으로 잰건지 잘 모르겠음. 그랬을 때 정확도가 아니라 AP라고 적어도 되는 건지 모르겠음
paper, code
TL;DR
Details
motivation
overall pipeline
(1) Extracting objects from candidates, references, and images
(2) Object Filtering
fork or knife
와 같은 서술을 하는 경우가 있음.(3) Object matching SBERT 사용 bipartite matching
최종 metric은 아래와 같이 "가장 최소의 matching similarity"![image](https://github.com/long8v/PTIR/assets/46675408/fb1608e8-8f1c-42b6-81b7-f3a4ca7dba77)
Result
HAT
HAT은 COCO 이미지에 대해서 직접 만듦. (TEST 400) 여기서 CHAIRs는 accuracy라고 함 (AP와 accuracy를 같은 테이블에 두어도 되는건가?)
FOIL
no-caps에서 우수한 성적 여기 베이스라인이 50이어서 CLIPScore에서 재듯이 두개를 비교적으로 잰건지 잘 모르겠음. 그랬을 때 정확도가 아니라 AP라고 적어도 되는 건지 모르겠음
Qualitative
Ablation