[2021] BART for Post-Correction of OCR Newspaper Text

osuossu8 commented 2 years ago

https://aclanthology.org/2021.wnut-1.31.pdf

学会 : ACL2021

osuossu8 commented 2 years ago

概要

新聞のページ画像からの光学式文字認識 (OCR) は、古い文書の劣化や組版のばらつきによるノイズの影響を受けやすい
OCR 事後修正の新アプローチ
エラー修正を翻訳タスクとしてキャスト
BART (a transformerbased sequence-to-sequence language model pretrained to denoise corrupted text) の finetune
最高のモデルでは, 元のノイズの多い OCR テキストよりも文字精度が 29.4% 向上
ノイズの多いテキストを処理するための事前トレーニング済み言語モデルの有用性を示している

model

BART (Lewis et al., 2020) (事前トレーニングコーパスには、英語版ウィキペディアのすべてに加えて、幅広いジャンルを表す BookCorpus が包含) (英語のみで事前学習)
- 事前学習タスクが違う
- 他の事前学習モデル (masked token prediction or next token generation)
- BART は事前トレーニングと微調整タスクが類似
  - 微調整前の BART のパフォーマンスの低さはやや驚くべき
- BART is trained to reconstruct text which has been corrupted in a variety of ways (いろんな方法で崩された文章の再生成)
- BART’s pretraining objective can be seen as a generalization of masked language modelling: in addition to token masking, input may also undergo a combination of token deletion, text infilling, sentence permutation, and document rotation.
- ノイズに対して頑健
- OCR で生成されたテキストのエラーを修正するという目的のために、さまざまな種類のノイズの多いデータで BART を事前トレーニングすることは特に有利です。まず、事前トレーニング中に見られるテキスト破損のタイプと OCR によって導入された破損との間の類似性のため、BART は、理論的には、現状と比較して比較的少ない例のセットで OCR 固有のエラータイプに合わせて微調整できます。
- OCR は頻繁に文字を見落としたり、偽の文字を挿入したりするため、BART のトークンの削除とテキストの埋め込みタスクは OCR の修正に適しています。

データセット

ICDAR 2017 Post-OCR Correction dataset (Chiron et al., 2017)
- 1744 年から 1911 年までの歴史的な新聞とモノグラフのテキストが混在
- 英仏
- 英語のみ使用
- 残りの英語データには、38,975 のトレーニング文 (27,414 のモノグラフ、11,561 の定期刊行物) と 7,759 の評価文 (3,966 のモノグラフ、3,793 の定期刊行物) が含

結論

OCR によって生成されたノイズの多いテキストデータの自動修正に BART を使用する方法の提案
スタンドアロンのテキスト修正モデルとして十分に機能
原理的には, OCR による誤りに限らず, 同じ方法を適用して, 手書き認識モデルの出力から人間が生成したタイプミスまであらゆるタイプのノイズの多いデータを修正可能

future work

英語以外のデータを修正するための mBART の finetune
テキスト修正に関する他の sequenceto-sequence 言語モデルとの BART の比較

メモ

osuossu8 commented 2 years ago

Previous Work

n-gram または辞書ベースの手法 (Kukich、1992 年)
ICDAR での Post-OCR correction コンペ開催
- 2017 : 統計的およびニューラル機械翻訳アプローチが優勢
- 2019 : Clova AI の優勝チームは、BERT 埋め込みを入力として使用して CNN 分類器をトレーニングし、次に文字レベルのシーケンスツーシーケンス (biLSTM) を使用して修正 (Rigaud et al., 2019)
Nguyen et al. (2020) use BERT embeddings to train an error detection network, and then apply character-level NMT for correction.
事前トレーニング済みの BERT 埋め込みを biGRU への入力として使用してエラーを検出し、マスクされた言語モデリングタスクで BERT を微調整して文を修正します。最初のステップで検出されたエラーはソフトマスクされます
BERT 埋め込みに加えて、エラーと候補置換の間の編集距離を使用して、事前に特定されたエラーを修正します。上記の研究は、テキスト修正における事前学習済み言語モデルの可能性を示す
end2end でテキストのエラー検出と修正をやるために BART に着目

osuossu8 commented 2 years ago

There are five main types of errors produced by OCR: (1) over-segmentation, (2) undersegmentation, (3) misrecognized character, (4) missing character, (5) hallucination. After finetuning, BART can recognize and correct all five types of errors.

osuossu8 / paper-reading

[2021] BART for Post-Correction of OCR Newspaper Text #29

概要

model

データセット

結論

future work

メモ

Previous Work