LAYOUTLMV2: MULTI-MODAL PRE-TRAINING FOR VISUALLY-RICH DOCUMENT UNDERSTANDING

e4exp commented 3 years ago

https://arxiv.org/abs/2012.14740
2020

テキストとレイアウトの事前学習は、効果的なモデルアーキテクチャと、大規模な非ラベルのスキャン/デジタル生文書の利点により、視覚的に豊かな文書理解タスクの様々な分野で有効であることが証明されている。本論文では、マルチモーダルなフレームワークを用いて、テキスト、レイアウト、画像の事前学習を行うLayoutLMv2を発表します。具体的には、LayoutLMv2では、既存のマスクされた視覚言語モデリングタスクだけでなく、新たにテキスト-画像間のアライメントタスクとテキスト-画像間のマッチングタスクを事前学習段階で使用し、クロスモーダルな相互作用をより効果的に学習しています。また、Transformerのアーキテクチャに空間認識型の自己注意メカニズムを統合することで、モデルが異なるテキストブロック間の相対的な位置関係を完全に理解できるようにしました。実験結果によると，LayoutLMv2は強力なベースラインを上回り，FUNSD（0. 7895 → 0.8420）、CORD（0.9493 → 0.9601）、SROIE（0.9524 → 0.9781）、Kleister-NDA（0.834 → 0.852）、RVL-CDIP（0.9443 → 0.9564）、DocVQA（0.7295 → 0.8672）など、視覚的に豊かな文書理解タスクにおいて、LayoutLMv2は強力なベースラインを上回り、最先端の結果を達成しました。事前に学習されたLayoutLMv2モデルは、https://aka.ms/ layoutlmv2で公開されています。

e4exp commented 3 years ago

1 はじめに

VrDU（Visually-rich Document Understanding）は，スキャン／デジタル化されたビジネス文書（画像，PDFなど）を分析し，構造化された情報を自動的に抽出・整理して，多くのビジネスアプリケーションに役立てることを目的としています。従来の情報抽出タスクとは異なり、VrDUタスクはテキスト情報だけでなく、視覚的に豊かな文書に不可欠な視覚情報やレイアウト情報にも依存します。例えば、図1の文書には、デジタルフォーム、領収書、請求書、財務報告書など、さまざまなタイプのものが含まれています。これは、文書の内容だけでなく、それぞれのスタイルやフォーマットによっても決まります。したがって、注目するテキストフィールドを正確に認識するためには、視覚的に豊かな文書のクロスモダリティ性を利用することが不可欠であり、テキスト、視覚、およびレイアウト情報を単一のフレームワークでエンドツーエンドで共同モデル化し、学習する必要があります。 VrDUの最近の進展は、主に2つの方向性に分かれています。第1の方向は、通常、テキスト情報とビジュアル／レイアウト／スタイル情報の間の浅い融合に基づいて構築されている（Yang et al., 2017a; Liu et al., 2019; Sarkhel & Nandi, 2019; Yu et al., 2020; Majumder et al., 2020; Wei et al., 2020; Zhang et al., 2020）。これらのアプローチは、事前に訓練されたNLPモデルとCVモデルを個別に活用し、複数のモダリティからの情報を組み合わせて教師付き学習を行います。しかし、これらのモデルは、文書の種類が変更されると、最初から学習し直す必要があることが多い。また、ある文書タイプのドメイン知識を別の文書タイプに簡単に移すことはできず、一般的な文書レイアウトの局所的な不変性（例えば、キーと値のペアを左右に並べたレイアウト、表をグリッドに並べたレイアウトなど）を十分に活用することができません。このため、第2の方向性は、異なるドメインの多数のラベルのない文書から得られるテキスト、視覚、およびレイアウト情報の深い融合に依存しており、事前学習技術がクロスモダリティの相互作用をエンド・ツー・エンドで学習する上で重要な役割を果たします（Lockard et al.2020; Xu et al.2020）。このようにして、事前に学習されたモデルは、異なるドキュメントタイプからクロスモーダルな知識を吸収し、これらのレイアウトやスタイルの間の局所的な不変性が維持されます。さらに、このモデルを異なる文書形式を持つ別のドメインに移植する必要がある場合、最先端の精度を達成するために汎用モデルを微調整するには、わずか数個のラベル付きサンプルで十分である。そこで、本稿で提案するモデルは、第2の方向性に従い、VrDUタスクのための事前学習戦略をさらに改善する方法を模索する。

本論文では、LayoutLM（Xu et al., 2020）の改良版、通称LayoutLMv2を紹介する。 LayoutLMは、VrDUタスクのためのテキストとレイアウトのシンプルかつ効果的な事前学習法である。従来のテキストベースの事前学習モデルとは異なり、LayoutLMは従来のテキスト埋め込みに加えて、2次元の位置埋め込みと画像埋め込みを使用します。事前学習の段階では、

1）マスクされた視覚言語モデル、 2）マルチラベルの文書分類、

という2つの学習目的が用いられます。このモデルは，IIT-CDIPデータセット（Lewis et al.2006）からの大量のラベル無しスキャン文書画像を用いて事前学習され，いくつかの下流タスクで非常に有望な結果を得た．既存の研究成果を拡張し、LayoutLMv2モデルの新しいモデルアーキテクチャと事前学習の目的を提案する。 LayoutLMv2では、LayoutLMモデルのように画像埋め込みを微調整段階で組み合わせるのではなく、LayoutLMv2の事前学習段階で画像情報を統合し、Transformerアーキテクチャを活用して、視覚情報とテキスト情報の間のクロスモダリティの相互作用を学習します。さらに、1次元相対位置表現（Shaw et al., 2018; Raffel et al., 2020; Bao et al., 2020）に触発されて、LayoutLMv2に、トークンペアの2次元相対位置表現を伴う、空間認識型自己注意メカニズムを提案する。絶対的な2次元位置の埋め込みとは異なり、相対的な位置の埋め込みは、文脈的な空間モデリングのためのより広い視野を明示的に提供する。また，LayoutLMv2では，マスクされた視覚言語モデルに加えて，2つの新しい学習目的を用いています． 1つ目は、提案されたテキスト-画像整列戦略で、画像内のテキストラインをカバーし、テキスト側で予測を行い、画像側でトークンがカバーされているかどうかを分類するものである。 2つ目は、これまでの視覚言語の事前学習モデル（Tan & Bansal, 2019; Lu et al., 2019; Su et al., 2020; Chen et al., 2020; Sun et al., 2019）で普及しているテキスト-画像マッチング戦略で、テキスト-画像ペアの一部の画像をランダムに別の文書画像に置き換えて、画像とOCRテキストが相関しているかどうかをモデルに学習させます。このようにして、LayoutLMv2は文脈的なテキスト情報と視覚情報、そしてクロスモーダルな相関関係を単一のフレームワークで学習することができ、より優れたVrDU性能を実現しています。事前に学習されたLayoutLMv2モデルの性能を評価するための下流タスクとして、6つの一般に公開されているベンチマークデータを選択しています。

これらのデータは、形式理解のためのFUNSDデータセット（Jaume et al.2019）、レシート理解のためのCORDデータセット（Park et al.2019）およびSROIEデータセット（Huang et al, 2019）はレシート理解のために、Kleister-NDAデータセット（Gralinski ´ et al., 2020）は複雑なレイアウトを持つ長文文書理解のために、RVL-CDIPデータセット（Harley et al., 2015）は文書画像分類のために、DocVQAデータセット（Mathew et al., 2020）は文書画像上の視覚的質問応答のために使用されています。実験の結果、LayoutLMv2モデルは、バニラLayoutLMを含む強力なベースラインを凌駕し、これらの下流のVrDUタスクにおいて最先端の新しい結果を達成し、実世界の多数の文書理解タスクに実質的な利益をもたらすことが示された。本論文の貢献は以下のようにまとめられる。

我々は、文書のテキスト、レイアウト、画像の情報を事前学習段階で統合するマルチモーダルなTransformerモデルを提案し、単一のフレームワークでクロスモーダルな相互作用をエンドツーエンドで学習します。
また、マスクされた視覚言語モデルに加えて、異なるモダリティ間の整合性を確保するために、テキストと画像のマッチングとテキストと画像の整合性を新たな事前学習戦略として追加しました。また、空間を意識した自己注意メカニズムをTransformerアーキテクチャに統合しました。
LayoutLMv2は、従来のVrDUタスクにおいてベースラインモデルを上回る性能を発揮しただけでなく、文書画像のVQAタスクにおいて新たなSOTA結果を達成し、VrDUのためのマルチモーダル事前学習の大きな可能性を示しました。事前学習されたLayoutLMv2モデルは、https://aka.ms/layoutlmv2 で公開されています。

e4exp commented 3 years ago

2 APPROACH

提案するLayoutLMv2の全体像を図2に示します。このセクションでは、LayoutLMv2のモデルアーキテクチャと事前学習タスクを紹介します。

2.1 モデルアーキテクチャ

LayoutLMv2のバックボーンとして、VrDUタスク用に強化されたTransformerアーキテクチャ、すなわちmulti-modal Transformerを構築します。 multi-modal Transformerは、テキスト、画像、レイアウトの3つのモダリティの入力を受け付けます。各モダリティの入力は、エンコーダーによって埋め込みシーケンスに変換され、融合されます。このモデルは、強力なTransformerレイヤーを活用することで、モダリティ内およびモダリティ間の深い相互作用を確立します。以下にモデルの詳細を紹介しますが、一部のドロップアウト層と正規化層は省略しています。テキストの埋め込み市販のOCRツールやPDFパーサーを使って、テキストを認識し、適切な読み順にシリアライズします。一般的な慣習に従い、WordPiece (Wu et al., 2016)を用いてテキスト列をトークン化し、各トークンを特定のセグメントsi∈{[A], [B]}に割り当てる。そして，トークン・シーケンスの先頭に[CLS]を，各テキスト・セグメントの末尾に[SEP]を追加します。最終的なシーケンスの長さが最大シーケンス長Lよりも大きくならないように、テキストシーケンスの長さは制限されています。トークンシーケンスがまだLトークンよりも短い場合は、ギャップを埋めるために、最後の[SEP]トークンの後に余分な[PAD]トークンが追加されます。このようにして，次のような入力トークン列が得られます。

最終的なテキストエンベッディングは、3つのエンベッディングの合計である。トークンエンベッディングはトークンそのものを表し、1次元位置エンベッディングはトークンインデックスを表し、セグメントエンベッディングは異なるテキストセグメントを区別するために使われます。形式的には、i番目のテキストエンベッディングを次のように定義する

ビジュアルエンベッディング

ビジュアルエンコーダーのバックボーンとして、ResNeXt-FPN（Xie et al. 文書ページ画像Iが与えられると、224×224にリサイズされた後、ビジュアルバックボーンに供給されます。その後、出力された特徴マップは、幅がW、高さがHの固定サイズに平均化され、次に、長さW Hのビジュアルエンベッディングシーケンスにフラット化されます。そして、次元を統一するために、各ビジュアルトークンエンベッディングに線形投影レイヤーが適用されます。 CNNベースのビジュアルバックボーンでは位置情報を捉えることができないため、これらの画像トークンエンベッディングに1次元の位置エンベッディングも加えます。この1次元位置エンベッディングは、テキストエンベッディング層と共有されます。セグメント埋め込みでは、すべてのビジュアルトークンをビジュアルセグメント[C]に付けます。 i番目のビジュアルエンベッディングは次のように表される。

レイアウト埋め込み

レイアウト埋め込み層は、コーナー座標とボックス形状が明示的に識別されたトークンのバウンディングボックスで表現される空間レイアウト情報を埋め込むことを目的としています。バニラのLayoutLMに倣い、すべての座標を[0, 1000]の範囲の整数に正規化して離散化し、2つの埋め込み層を使ってX軸特徴とY軸特徴を別々に埋め込みます。 i番目のテキスト/ビジュアル・トークン・ボックスi = (x0, x1, y0, y1, w, h)の正規化されたバウンディング・ボックスが与えられると、レイアウト埋め込み層は6つのバウンディング・ボックスの特徴を連結して、トークン・レベルのレイアウト埋め込み、つまり2D位置埋め込みを構築します。

CNNは局所的な変換を行うので、ビジュアル・トークンの埋め込みは、重なったり漏れたりすることなく、1つずつ画像領域にマッピングできることに注意してください。レイアウト埋め込み層の視点では、ビジュアル・トークンはいくつかの均等に分割されたグリッドとして扱えるので、そのバウンディング・ボックス座標は簡単に計算できる。空のバウンディング・ボックスPAD = (0, 0, 0, 0, 0, 0)が特別なトークン[CLS]、[SEP]、[PA]に付けられている。

空間を考慮した自己保持機構を備えたマルチモーダル・エンコーダ

エンコーダは，視覚的エンベッディング{v0, ..., vWH-1}とテキストエンベッディング{t0, ..., tL-1}を統一されたシーケンスXに連結し，レイアウトエンベッディングを加えることで空間情報を融合し，第1層の入力x (0) を得る．

マルチモーダル・エンコーダは、Transformerのアーキテクチャを踏襲し、マルチヘッドの自己注意層とそれに続くフィードフォワード・ネットワークのスタックで構成されています。しかし、オリジナルのセルフアテンションメカニズムは、入力トークンと絶対位置ヒントとの関係を暗黙的にしか捉えることができません。文書レイアウトの局所不変性を効率的にモデル化するためには、相対位置情報を明示的に挿入する必要がある。そこで、空間を考慮したセルフアテンション機構をセルフアテンション層に導入します。元々の自己注意メカニズムは、クエリxiとキーxjの相関関係を、2つのベクトルを投影して注意スコアを計算することで捉えています

ここでは、意味的相対位置と空間的相対位置をバイアス項として共同でモデル化し、それらを明示的に注目度スコアに加える。 b (1D) , b (2Dx), b (2Dy) はそれぞれ学習可能な1Dと2Dの相対位置のバイアスを表すとする。このバイアスは、アテンションヘッドによって異なるが、すべてのエンコーダ層で共有される。 (xi , yi)がi番目のバウンディングボックスの左上隅の座標を固定していると仮定すると、空間を考慮したアテンションスコアを得る

最後に、出力ベクトルは、正規化された空間認識注意スコアに関して、すべての投影された値のベクトルの加重平均として表されます。

スクリーンショット 2021-09-09 9 39 01

2.2 PRE-TRAINING

事前学習段階では、3つの自己教師タスクを同時に採用し、以下のように説明する。

Masked Visual-Language Modeling

LayoutLMと同様に、クロスモダリティの手がかりを用いて言語面での学習を向上させるために、Masked Visual-Language Modeling (MVLM)を使用します。いくつかのテキストトークンをランダムにマスクし、モデルにマスクされたトークンを復元するように指示します。一方、レイアウト情報は変更されないので、モデルはマスクされた各トークンのページ上の位置を知っています。エンコーダから出力されたマスクされたトークンの表現は、クロスエントロピー損失を用いて、語彙全体の分類器に入力されます。また、視覚的な手がかりの漏れを防ぐために、入力されたページ画像のうち、マスクされたトークンに対応する画像領域をマスクしてから、ビジュアルエンコーダに入力しています。 MVLMは、モデルが近傍のトークンの特徴を捉えるのに役立ちます。例えば、たくさんの数字に囲まれた表の中のマスクされた空白は、数字である可能性が高いと考えられます。さらに、空白の空間的な位置がわかれば、モデルは周辺の視覚情報を利用してトークンを予測することができます。

Text-Image Alignment

MVLMに加えて、細かいクロスモダリティのアライメントタスクとして、Text-Image Alignment (TIA)を提案している。 TIAタスクでは、いくつかのテキストトークンがランダムに選択され、その画像領域がドキュメント画像上でカバーされる。この操作は、MVLMのマスキング操作との混同を避けるため、カバーリングと呼んでいる。事前学習では、エンコーダの出力の上に分類層を構築します。この層では、テキストの各トークンが覆われているかどうかに応じてラベルを予測し、[覆われている]または[覆われていない]とし、2値のクロスエントロピー損失を計算する。入力画像の解像度が限られていることを考慮して、カバーリング処理はラインレベルで行われます。 MVLMとTIAが同時に実行される場合、MVLMでマスクされたトークンのTIA損失は考慮されない。これにより、[MASK]から[Covere]への無駄だが単純な対応関係をモデルが学習することを防ぐことができる。

Text-Image Matching

さらに、粗視化されたクロスモダリティのアライメントタスクであるText-Image Matching (TIM)を事前学習段階で適用します。 CLS]の出力表現を分類器に入力し、画像とテキストが同じドキュメントページのものかどうかを予測します。通常の入力は正のサンプルです。負のサンプルを作成するには，画像を別の文書のページ画像で置き換えるか，削除します．タスクの特徴を見つけてモデルが不正を行うのを防ぐために、負のサンプルの画像にも同じマスキングとカバーリングの操作を行います。ネガティブなサンプルでは，TIAのターゲットラベルはすべて[Covered]に設定されます．また，最適化の際には，バイナリークロスエントロピー損失を適用します．

2.3 FINE-TUNING

LayoutLMv2は、クロスモダリティ情報を融合した表現を生成し、様々なVrDUタスクに貢献します。LayoutLMv2の出力シーケンスは、トークンレベルの表現を提供します。具体的には、[CLS]での出力をグローバルフィーチャーとして使用することができます。多くの下流タスクでは、LayoutLMv2の出力の上にタスク指定のヘッドレイヤーを構築し、適切な損失を用いてモデル全体を微調整するだけで済みます。このように、LayoutLMv2は、テキスト、レイアウト、画像情報を単一のマルチモーダルフレームワークに統合することで、VrDUのパフォーマンスを大幅に向上させ、バニラLayoutLMモデルと比較して、クロスモーダルな相関を大幅に改善します。

e4exp / paper_manager_abstract