Closed AtsukiOsanai closed 2 years ago
LayoutLMの進化版であるLayoutLMv2の提案。先行研究に対し、画像特徴とテキスト特徴のcross-modalなinteractionを実現するためにこれら特徴をearly fusionさせてTransformerに入力する。layout情報の取り込みについて、LayoutLMv2ではLayoutLMと同様にtext bboxの絶対座標(2D)の埋め込みを行うが、それに加えてbbox間の相対座標を考慮に入れたspatial-aware self-attentionを導入。この機構によりspatialな関係性をより明示的に考慮することができる。事前学習タスクとしてMasked Language Modeling(MLM), text-image alignment(TIA), text-image matching(TIM)を用いて学習したbase modelは、種々のdownstream tasksにおいてSOTAの性能を達成した。
FUNSDでのform understanding, CORD・SROIEでのreceipt understanding, Kleister-NDAでのlong document understanding, RVL-CDIPでのdocument classification, DocVQAでのVQA on document imageにてSOTAを達成。
Doc-VQAにLMを対応する方法(予想込み)
LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding
Information
Summary
サマリ図表
どんな論文か?
LayoutLMの進化版であるLayoutLMv2の提案。先行研究に対し、画像特徴とテキスト特徴のcross-modalなinteractionを実現するためにこれら特徴をearly fusionさせてTransformerに入力する。layout情報の取り込みについて、LayoutLMv2ではLayoutLMと同様にtext bboxの絶対座標(2D)の埋め込みを行うが、それに加えてbbox間の相対座標を考慮に入れたspatial-aware self-attentionを導入。この機構によりspatialな関係性をより明示的に考慮することができる。事前学習タスクとしてMasked Language Modeling(MLM), text-image alignment(TIA), text-image matching(TIM)を用いて学習したbase modelは、種々のdownstream tasksにおいてSOTAの性能を達成した。
新規性
結果
FUNSDでのform understanding, CORD・SROIEでのreceipt understanding, Kleister-NDAでのlong document understanding, RVL-CDIPでのdocument classification, DocVQAでのVQA on document imageにてSOTAを達成。
その他(なぜ通ったか?など)