The pre-training objective is to recover visual tokens from dVAE based on the corrupted input document images using the Masked Image Modeling (MIM) in BEiT.
使用データセット
the RVL-CDIP dataset [16] for document image classification
the PubLayNet dataset [46] for document layout analysis
大規模なドキュメント レイアウト分析データセット
PubMed XML ファイルを自動的に解析することにより、360,000 を超えるドキュメント イメージ
テキスト、タイトル、リスト、図、表などの一般的なドキュメント レイアウト要素をカバー
評価メトリック : MAP@IOU [0.50:0.95]
the ICDAR 2019 cTDaR dataset [15] for table detection
テーブル検出とテーブル構造認識を含む 2 つのトラックで構成
アーカイブ ドキュメント用
600 のトレーニング イメージと 199 のテスト イメージ
手書きの会計帳簿、証券取引所のリスト、列車の時刻表、生産国勢調査などを含む
最新ドキュメント用
600 のトレーニング イメージと 240 のテスト イメージ
科学ジャーナル、フォーム、財務諸表など、さまざまな種類の PDF ファイルが含まれています
さまざまな形式の中国語と英語のドキュメントが含まれる
評価指標
Metrics for evaluating this task are the precision, recall, and F1 scores computed from the model’s ranked output w.r.t. different Intersection over Union (IoU) threshold. We calculate the values with IoU thresholds of 0.6, 0.7, 0.8, and 0.9 respectively, and merge them into a final weighted F1 score: 𝑤𝐹 1 = 0.6𝐹 10.6 + 0.7𝐹 10.7 + 0.8𝐹 10.8 + 0.9𝐹 10.9 0.6 + 0.7 + 0.8 + 0.9 This task further requires models to combine the modern and archival set as a whole to get a final evaluation result.
https://arxiv.org/pdf/2203.02378.pdf @ ACM 2022