issues
search
zerebom
/
paper-books
@zerebom が読んだ技術書、論文をまとめています。推薦システム系が多いです。
https://github.com/zerebom/paper-books/issues
2
stars
0
forks
source link
dounut: OCR-free Document Understanding Transformer
#60
Open
zerebom
opened
1 year ago
zerebom
commented
1 year ago
Ref
pdf
github
概要
画像からどんな情報が書かれているか理解するVDC(Visual Document Understanding)のタスクは、従来OCR→後続のタスクと複数のタスクに切り分けることで実現してきた
ただし、上記手法では以下のような欠点がある
複数タスクを解くので計算コストが大きい
OCRの精度が十分でないと、後続のタスクの精度が落ちる
これを解決するために、E2EでVDCを解くアーキテクチャ(dount)を考案
従来のアーキテクチャに比べシンプルかつ、速度も精度も既存のものより良い
また独自の人工データ生成機構(SynthDoG)を使ってPretrainすることで、精度を押し上げている
タスク概要
アーキテクチャ
アーキテクチャ
Encoder
SwinTransformerを使って画像をEmbにする
Decoder
pre-trained multi-lingual BART model を使う
Model Input
Teacher Forcing schemaを用いる。promptを与える。
Output Conversion
[START
*],[Value], [END
*], ...のようなトークンを使って、Json形式を構築する
結果
以下3つのサブタスクでどれも高い性能を発揮
Document Classification
document IE
Document Visual Question Answering
Ref
概要
タスク概要
アーキテクチャ
結果