LayoutLM: Pre-training of Text and Layout for Document Image Understanding

BERTに、文書の画像情報のembedding(image embedding)と2次元のPositinal embeddingを新たに導入することで文書の視覚的情報を考慮した事前学習を行うモデル(LayoutLM)を提案。事前学習には、Masked visual language modeling task(BERTのマスク単語予測と同じ)とMulti-label document Classificationの2つを利用する。

以下の3つのタスクでLayoutLMの効果を検証。