AtsukiOsanai / cv_survey

Personal repository for computer vision survey
2 stars 0 forks source link

LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding #76

Closed AtsukiOsanai closed 2 years ago

AtsukiOsanai commented 2 years ago

LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding

Information

Summary

サマリ図表

スクリーンショット 2022-11-07 0 41 28

どんな論文か?

LayoutLMの進化版であるLayoutLMv2の提案。先行研究に対し、画像特徴とテキスト特徴のcross-modalなinteractionを実現するためにこれら特徴をearly fusionさせてTransformerに入力する。layout情報の取り込みについて、LayoutLMv2ではLayoutLMと同様にtext bboxの絶対座標(2D)の埋め込みを行うが、それに加えてbbox間の相対座標を考慮に入れたspatial-aware self-attentionを導入。この機構によりspatialな関係性をより明示的に考慮することができる。事前学習タスクとしてMasked Language Modeling(MLM), text-image alignment(TIA), text-image matching(TIM)を用いて学習したbase modelは、種々のdownstream tasksにおいてSOTAの性能を達成した。

新規性

結果

FUNSDでのform understanding, CORD・SROIEでのreceipt understanding, Kleister-NDAでのlong document understanding, RVL-CDIPでのdocument classification, DocVQAでのVQA on document imageにてSOTAを達成。

その他(なぜ通ったか?など)

AtsukiOsanai commented 1 year ago

Doc-VQAにLMを対応する方法(予想込み)