DocFormer: End-to-End Transformer for Document Understanding

1. はじめに

Visual Document Understanding (VDU) は、PDF や画像として作成されたデジタル文書を理解することを目的としたタスクです。 VDUは、エンティティのグループ化、シーケンスのラベリング、ドキュメントの分類など、ドキュメントに関する様々なタスクに焦点を当てている。最近のOCRエンジン[33]は、文書からテキストを予測することに長けていますが、VDUでは、文書の構造とレイアウトの両方を理解する必要があります。この目的のためには、テキスト、あるいはテキストと空間の特徴だけでは十分ではありません。最良の結果を得るためには、テキスト、空間的特徴、そして画像を活用する必要があります。これらすべての特徴を利用する方法の1つとして、トランスフォーマーモデルを使用する方法があります[4, 14, 52]。

トランスフォーマーは、最近ではVDUにも使用されています[25, 55, 56]。これらのモデルは、教師なしの事前学習をどのように行うか、自己注意をVDUドメイン用に修正するか、またはモダリティ（テキスト、画像、空間）をどのように融合させるかによって異なる。 VDUに対しては、テキストのみのアプローチ[14]や、テキストと空間特徴のみのアプローチ[25, 55]があります。しかし、3つのモダリティ（テキスト、視覚、空間）をすべて融合させることが聖杯となっている。これは、テキストには視覚的特徴が欠落している情報（言語セマンティクス）があり、視覚的特徴にはテキストが欠落している情報（例えば、テキストのフォントや視覚的レイアウト）があるため、望ましいことです。

一般に、マルチモーダルな学習は、テキストの一部を任意の範囲のビジュアルコンテンツに対応させる必要があるため、困難です。例えば、図1では「ITEM 1」を視覚領域に対応させる必要があります。

別の言い方をすると、テキストは意味的な上位概念（例えば「人」という単語）を記述するのに対し、視覚的特徴は画像内の（人の）ピクセルにマッピングされます。テキスト←→画像というように、モダリティ間で特徴の相関をとることは容易ではありません。ここではこの問題をクロスモダリティ特徴相関と呼び、後にDocFormerがこの問題を解決するためのアプローチを提示していることを紹介します。

DocFormerは、今では一般的になった、事前学習と微調整を行う戦略をとっています。 DocFormerは、共有された空間埋め込みを用いた新しいマルチモーダル自己学習を、エンコーダのみの変換器アーキテクチャに組み込んでいます。さらに、3つの事前学習タスクを提案し、そのうち2つは教師なしのマルチモーダル・タスクであるLearning-to-reconstructとマルチモーダル・マスクド・ランゲージ・モデリング・タスクです。詳細は第3章で説明します。我々の知る限り、VDUを実現するためのアプローチとしては、視覚的特徴の抽出に大規模な事前学習済みの物体検出ネットワークを使用しないものは初めてです。これにより、メモリを節約できるだけでなく、空間的な特徴を用いてテキストと視覚的な特徴を簡単に関連付けることができます。 DocFormerは、視覚的な部分をゼロから学習し、エンド・ツー・エンドで学習されます。次に、本論文の貢献度について説明します。

ドキュメント内のテキスト、視覚、空間の特徴を融合することができる新しいマルチモーダルアテンションレイヤー。
マルチモーダルな特徴の連携を促す3つの教師なしの事前学習タスク。そのうちの2つは、教師なしの新しいマルチモーダル・タスクで、再構成学習タスクとマルチモーダル・マスクド・ランゲージ・モデリング・タスクです。
DocFormerはエンド・ツー・エンドの学習が可能で、視覚的特徴については事前に学習された物体検出ネットワークに依存しないため、アーキテクチャが簡素化されています。下流のVDUの4つのタスクにおいて、DocFormerは最先端の結果を達成しました。いくつかのタスクでは、他の大規模な変換器の4倍近いサイズ（パラメータ数）を上回る性能を発揮しました。また、DocFormerは最近の論文[56, 25]とは異なり、カスタムOCRを使用していません。

e4exp / paper_manager_abstract

DocFormer: End-to-End Transformer for Document Understanding #565

1. はじめに