dounut: OCR-free Document Understanding Transformer - Githubissues

zerebom / paper-books

@zerebom が読んだ技術書、論文をまとめています。推薦システム系が多いです。

https://github.com/zerebom/paper-books/issues

2 stars 0 forks source link

dounut: OCR-free Document Understanding Transformer #60

Open zerebom opened 1 year ago

zerebom commented 1 year ago

Ref

pdf
github

概要

画像からどんな情報が書かれているか理解するVDC(Visual Document Understanding)のタスクは、従来OCR→後続のタスクと複数のタスクに切り分けることで実現してきた
ただし、上記手法では以下のような欠点がある
- 複数タスクを解くので計算コストが大きい
- OCRの精度が十分でないと、後続のタスクの精度が落ちる
これを解決するために、E2EでVDCを解くアーキテクチャ(dount)を考案
従来のアーキテクチャに比べシンプルかつ、速度も精度も既存のものより良い
また独自の人工データ生成機構(SynthDoG)を使ってPretrainすることで、精度を押し上げている

タスク概要

アーキテクチャ

アーキテクチャ

Encoder
- SwinTransformerを使って画像をEmbにする
Decoder
- pre-trained multi-lingual BART model を使う
Model Input
- Teacher Forcing schemaを用いる。promptを与える。
Output Conversion
- [START*],[Value], [END*], ...のようなトークンを使って、Json形式を構築する

結果

以下3つのサブタスクでどれも高い性能を発揮
- Document Classification
- document IE
- Document Visual Question Answering