e4exp / paper_manager_abstract

0 stars 0 forks source link

DocFormer: End-to-End Transformer for Document Understanding #565

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本発表では、Visual Document Understanding (VDU)タスクのためのマルチモーダル変換器ベースのアーキテクチャであるDocFormerを紹介します。 VDUは、様々な形式(フォーム、領収書など)やレイアウトの文書を理解することを目的とした難しい問題です。 さらに、DocFormerは、マルチモーダルなインタラクションを促進するように慎重に設計されたタスクを用いて、教師なしで事前学習されています。 DocFormerは、テキスト、視覚、空間の特徴を使用し、新しいマルチモーダルな自己注意レイヤーを使用してそれらを組み合わせます。 また、DocFormerは学習した空間埋め込みをモダリティ間で共有することで、テキストと視覚トークン、またはその逆を容易に関連付けることができるようになっています。 DocFormerは、それぞれ強力なベースラインとなる4つのデータセットで評価されました。 DocFormerはすべてのデータセットで最先端の結果を達成し、時には4倍の規模のモデル(パラメータ数)を凌駕しました。

e4exp commented 3 years ago

1. はじめに

Visual Document Understanding (VDU) は、PDF や画像として作成されたデジタル文書を理解することを目的としたタスクです。 VDUは、エンティティのグループ化、シーケンスのラベリング、ドキュメントの分類など、ドキュメントに関する様々なタスクに焦点を当てている。 最近のOCRエンジン[33]は、文書からテキストを予測することに長けていますが、VDUでは、文書の構造とレイアウトの両方を理解する必要があります。 この目的のためには、テキスト、あるいはテキストと空間の特徴だけでは十分ではありません。 最良の結果を得るためには、テキスト、空間的特徴、そして画像を活用する必要があります。 これらすべての特徴を利用する方法の1つとして、トランスフォーマーモデルを使用する方法があります[4, 14, 52]。

トランスフォーマーは、最近ではVDUにも使用されています[25, 55, 56]。 これらのモデルは、教師なしの事前学習をどのように行うか、自己注意をVDUドメイン用に修正するか、またはモダリティ(テキスト、画像、空間)をどのように融合させるかによって異なる。 VDUに対しては、テキストのみのアプローチ[14]や、テキストと空間特徴のみのアプローチ[25, 55]があります。 しかし、3つのモダリティ(テキスト、視覚、空間)をすべて融合させることが聖杯となっている。 これは、テキストには視覚的特徴が欠落している情報(言語セマンティクス)があり、視覚的特徴にはテキストが欠落している情報(例えば、テキストのフォントや視覚的レイアウト)があるため、望ましいことです。

一般に、マルチモーダルな学習は、テキストの一部を任意の範囲のビジュアルコンテンツに対応させる必要があるため、困難です。 例えば、図1では「ITEM 1」を視覚領域に対応させる必要があります。 image

別の言い方をすると、テキストは意味的な上位概念(例えば「人」という単語)を記述するのに対し、視覚的特徴は画像内の(人の)ピクセルにマッピングされます。 テキスト←→画像というように、モダリティ間で特徴の相関をとることは容易ではありません。 ここではこの問題をクロスモダリティ特徴相関と呼び、後にDocFormerがこの問題を解決するためのアプローチを提示していることを紹介します。

DocFormerは、今では一般的になった、事前学習と微調整を行う戦略をとっています。 DocFormerは、共有された空間埋め込みを用いた新しいマルチモーダル自己学習を、エンコーダのみの変換器アーキテクチャに組み込んでいます。 さらに、3つの事前学習タスクを提案し、そのうち2つは教師なしのマルチモーダル・タスクであるLearning-to-reconstructとマルチモーダル・マスクド・ランゲージ・モデリング・タスクです。 詳細は第3章で説明します。 我々の知る限り、VDUを実現するためのアプローチとしては、視覚的特徴の抽出に大規模な事前学習済みの物体検出ネットワークを使用しないものは初めてです。 これにより、メモリを節約できるだけでなく、空間的な特徴を用いてテキストと視覚的な特徴を簡単に関連付けることができます。 DocFormerは、視覚的な部分をゼロから学習し、エンド・ツー・エンドで学習されます。 次に、本論文の貢献度について説明します。

image