Main Contributions

논문에서 말하는 contribution (Introduction에서 언급)

general-purpose visually-situated language understanding이라는 분야를 소개
- pixel-only 환경. Donut처럼, OCR 기반의 파이프라인 탈피
pretraining objective : screenshot parsing
- 이건 HTML Source 기반.
ViT에 variable-resolution input representations 사용.
새로운 finetuning strategy - language prompt를 input image에 렌더링해서 제시

letme-hj commented 1 year ago

Pretraining Strategy

기존 방법론과의 비교 (기존 방법론에 대해 정리도 해줘서 좋음 ㅎㅎ) 1) unmasked part를 recover해내는 것은, OCR과 비슷하다고 볼 수 있음. DONUT에서 사용된 Pretraining Skill과 같은 맥락. 2) masked part 를 recover해내는 것은, mlm(masked language modeling)과 같은 맥락. (차이: 글자가 아닌 주변의 visual cue를 더 활용할 수 있다는 점에서 유용) 3) image -> alt-text를 recover해내는 것은, image captioning 태스크에서 많이 사용됨. (차이: web을 추가적인 context로 활용할 수 있음)

HTML parsing. parsing으로 PRETRAIN함.

letme-hj commented 1 year ago

Benchmarks

Dataset	Metric
DocVQA	ANLS
InfographicVQA	ANLS
AI2D	EM
RefExp	EM
OCR-VQA	EM
ChartQA	RA
generation tasks	CIDEr

ANLS: Average Normalized Levenshtein Similarity EM: Exact Match *RA: Relaxed Accuracy

ChartQA: Chart 기반 QA task.
AI2D: multiple choice questions, based on science diagrams (train/test로만 나뉨)
OCR-VQA: book cover 기반 VQA dataset.
RefExp: NL expression + App Screenshot + Set of components가 주어졌을 때, Expression이 지칭하는 COMPONENT 찾아내는 task.
Widget Captioning: app screenshot과 그 안의 위젯 하나를 나타내는 BBOX를 주면, 그 위젯의 기능을 describe하는 task
Screen2Words: app screenshot을 주면 그 페이지의 기능을 describe하는 태스크
TextCaps: (natural images가지고 하는 것)
DocVQA: ANLS 76.6점 얻음. 제일 높은 점수는 LayoutLMv3 (83.4) . 이 논문에서는 in-domain pretraining data 쓰지 않고 VISUAL representation만 사용해서 높은 점수를 얻어냈다는 게 의의가 있다고 설명
InfographicVQA: Donut은 image를 정해진 고정 비율로 조절해서, 낮은 ANLS(11.6)을 얻었지만, 여기선 40을 얻었다고 함. Docvqa랑 InfographicVQA는 이미지 없이 학습시키는 게 오히려 성능이 잘 나왔다는 얘기인 듯? 요런 task들에서는 visual context가 역할이 적다는 의견 언급.

letme-hj commented 1 year ago

Variable-resolutioin

padding 최소화, Aspect-ratio distortion 방지 효과 IMG_27410CB3D4F3-1 IMG_712A199EA54E-1

warmup stage에서 위의 성능 측정

padded : 원래의 aspect ratio 유지, padding이 엄청 많게 됨. 낭비하는 꼴
stretched : ViT에서 전형적으로 쓰임. 패딩은 없지만 원본 이미지를 왜곡하게 됨.
variable-resolution : aspect ratio 유지, seq length로 지정된 길이 기준으로 최대화시킴. 더 효율적으로 학습하는 것으로 보임.

letme-hj / dl-papers

[3] Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding #3

Main Contributions

Pretraining Strategy

Benchmarks

Variable-resolutioin