BART (a transformerbased sequence-to-sequence language model pretrained to denoise corrupted text) の finetune
最高のモデルでは, 元のノイズの多い OCR テキストよりも文字精度が 29.4% 向上
ノイズの多いテキストを処理するための事前トレーニング済み言語モデルの有用性を示している
model
BART (Lewis et al., 2020) (事前トレーニングコーパスには、英語版ウィキペディアのすべてに加えて、幅広いジャンルを表す BookCorpus が包含) (英語のみで事前学習)
事前学習タスクが違う
他の事前学習モデル (masked token prediction or next token generation)
BART は事前トレーニングと微調整タスクが類似
微調整前の BART のパフォーマンスの低さはやや驚くべき
BART is trained to reconstruct text which has been corrupted in a variety of ways (いろんな方法で崩された文章の再生成)
BART’s pretraining objective can be seen as a generalization of masked language modelling: in addition to token masking, input may also undergo a combination of token deletion, text infilling, sentence permutation, and document rotation.
There are five main types of errors produced by OCR: (1) over-segmentation, (2) undersegmentation, (3) misrecognized character, (4) missing character, (5) hallucination. After finetuning, BART can recognize and correct all five types of errors.
https://aclanthology.org/2021.wnut-1.31.pdf
学会 : ACL2021