LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

Information

Authors: Yang Xu+
Organization: Harbin Institute of Technology, MSRA+
Paper: https://arxiv.org/abs/2012.14740
Code: https://aka.ms/layoutlmv2
Conference/Journal: ACL2021

Summary

サマリ図表

どんな論文か？

LayoutLMの進化版であるLayoutLMv2の提案。先行研究に対し、画像特徴とテキスト特徴のcross-modalなinteractionを実現するためにこれら特徴をearly fusionさせてTransformerに入力する。layout情報の取り込みについて、LayoutLMv2ではLayoutLMと同様にtext bboxの絶対座標(2D)の埋め込みを行うが、それに加えてbbox間の相対座標を考慮に入れたspatial-aware self-attentionを導入。この機構によりspatialな関係性をより明示的に考慮することができる。事前学習タスクとしてMasked Language Modeling(MLM), text-image alignment(TIA), text-image matching(TIM)を用いて学習したbase modelは、種々のdownstream tasksにおいてSOTAの性能を達成した。

新規性

LayoutLMがfine-tune stageの特徴でVisual Featureを用いていたのに対し、提案手法はTransformerの入力にVision Featureを追加し、Image-TextのCross-modality interactionを獲得するための構造を提案
spatial-aware self-attention mechanismを導入。textの1D・2D relative positionに応じてself-attentionのかかる距離がコントロールされる（恐らく近いほど相関が強くなる）
MLMに加え、新たなself-supervised objectiveとして、TIA、TIMを提案
- TIAは画像をpatchに分割した上で、textがどのpatchに属すかを推定するタスク
- TIMは画像とテキストがそれぞれ同じサンプルから入力されたものかを推定するタスク

結果

FUNSDでのform understanding, CORD・SROIEでのreceipt understanding, Kleister-NDAでのlong document understanding, RVL-CDIPでのdocument classification, DocVQAでのVQA on document imageにてSOTAを達成。

AtsukiOsanai / cv_survey