Open letme-hj opened 1 year ago
논문에서 말하는 contribution (Introduction에서 언급)
기존 방법론과의 비교 (기존 방법론에 대해 정리도 해줘서 좋음 ㅎㅎ) 1) unmasked part를 recover해내는 것은, OCR과 비슷하다고 볼 수 있음. DONUT에서 사용된 Pretraining Skill과 같은 맥락. 2) masked part 를 recover해내는 것은, mlm(masked language modeling)과 같은 맥락. (차이: 글자가 아닌 주변의 visual cue를 더 활용할 수 있다는 점에서 유용) 3) image -> alt-text를 recover해내는 것은, image captioning 태스크에서 많이 사용됨. (차이: web을 추가적인 context로 활용할 수 있음)
HTML parsing. parsing으로 PRETRAIN함.
Dataset | Metric |
---|---|
DocVQA | ANLS |
InfographicVQA | ANLS |
AI2D | EM |
RefExp | EM |
OCR-VQA | EM |
ChartQA | RA |
generation tasks | CIDEr |
ANLS: Average Normalized Levenshtein Similarity EM: Exact Match *RA: Relaxed Accuracy
ChartQA: Chart 기반 QA task.
AI2D: multiple choice questions, based on science diagrams (train/test로만 나뉨)
OCR-VQA: book cover 기반 VQA dataset.
RefExp: NL expression + App Screenshot + Set of components가 주어졌을 때, Expression이 지칭하는 COMPONENT 찾아내는 task.
Widget Captioning: app screenshot과 그 안의 위젯 하나를 나타내는 BBOX를 주면, 그 위젯의 기능을 describe하는 task
Screen2Words: app screenshot을 주면 그 페이지의 기능을 describe하는 태스크
TextCaps: (natural images가지고 하는 것)
DocVQA: ANLS 76.6점 얻음. 제일 높은 점수는 LayoutLMv3 (83.4) . 이 논문에서는 in-domain pretraining data 쓰지 않고 VISUAL representation만 사용해서 높은 점수를 얻어냈다는 게 의의가 있다고 설명
InfographicVQA: Donut은 image를 정해진 고정 비율로 조절해서, 낮은 ANLS(11.6)을 얻었지만, 여기선 40을 얻었다고 함.
Docvqa랑 InfographicVQA는 이미지 없이 학습시키는 게 오히려 성능이 잘 나왔다는 얘기인 듯? 요런 task들에서는 visual context가 역할이 적다는 의견 언급.
padding 최소화, Aspect-ratio distortion 방지 효과
warmup stage에서 위의 성능 측정
paper: https://arxiv.org/abs/2210.03347 github: https://github.com/google-research/pix2struct