long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[108] Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships #117

Open long8v opened 1 year ago

long8v commented 1 year ago
image

paper, code

TL;DR

Details

image

introduction에 있는 그림인데 실제로는 Scene Graph를 생성하지는 않음. 그냥 데이터 만들 때 scene graph 데이터를 활용하긴 함

proposed data: VLParse

image image

휴리스틱 + human refinement로 만듦

proposed task: Unsupervised Vision-Language Parsing

input : image $\mathbf{I}$, sentence $\mathbf{w} = {w_1, w_2, ... w_N}$ output : parse tree $\mathbf{pt}$. 각 object는 box region도 예측해야함. 이 논문에서는 faster rcnn으로 candidates들 뽑고 mapping 시킴.

image

architecture

Feature Extraction

Structure Construction

Cross-Modality Matching

image

위의 걸로 posterior 구할 수 있음

image

Learning

MLE loss

image

여기서 tag란 dependancy parsing을 tag로 표현하는 방법론인듯

image

c.f. Parsing as Tagging

image

Contrastive loss

image

Inference

image

가능한 모든 Parse tree를 만들고 가장 likelihood가 높은걸 찾음 그리고 각 contextual encoding c와 가장 가까운 $v$를 찾으면 scene graph도 만들 수 있음(Relation은 caption에 있는 relation이겠징?)

image

Result

image

etc.