letme-hj / dl-papers

Archiving papers I've read! (just to remember the key ideas!)
0 stars 0 forks source link

[3] Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding #3

Open letme-hj opened 1 year ago

letme-hj commented 1 year ago

paper: https://arxiv.org/abs/2210.03347 github: https://github.com/google-research/pix2struct

letme-hj commented 1 year ago

Main Contributions

논문에서 말하는 contribution (Introduction에서 언급)

letme-hj commented 1 year ago

Pretraining Strategy

기존 방법론과의 비교 (기존 방법론에 대해 정리도 해줘서 좋음 ㅎㅎ) 1) unmasked part를 recover해내는 것은, OCR과 비슷하다고 볼 수 있음. DONUT에서 사용된 Pretraining Skill과 같은 맥락. 2) masked part 를 recover해내는 것은, mlm(masked language modeling)과 같은 맥락. (차이: 글자가 아닌 주변의 visual cue를 더 활용할 수 있다는 점에서 유용) 3) image -> alt-text를 recover해내는 것은, image captioning 태스크에서 많이 사용됨. (차이: web을 추가적인 context로 활용할 수 있음)

HTML parsing. parsing으로 PRETRAIN함.

letme-hj commented 1 year ago

Benchmarks

Dataset Metric
DocVQA ANLS
InfographicVQA ANLS
AI2D EM
RefExp EM
OCR-VQA EM
ChartQA RA
generation tasks CIDEr

ANLS: Average Normalized Levenshtein Similarity EM: Exact Match *RA: Relaxed Accuracy

letme-hj commented 1 year ago

Variable-resolutioin

padding 최소화, Aspect-ratio distortion 방지 효과 IMG_27410CB3D4F3-1 IMG_712A199EA54E-1

warmup stage에서 위의 성능 측정