Open e4exp opened 3 years ago
要約すると、我々の主な貢献は以下の通りです。
本研究では,VAEの基本的な構成要素として自己注目層を提案し,レイアウト合成に特化したソリューションを開発し,多様な公開データセットで評価した. 本研究のアプローチは,すべての評価指標において最先端の定量的性能を示し(4.3節参照),魅力的な知覚的品質のレイアウトサンプルを得ることができた(4.4節参照). 自己回帰デコーディングは,高品質なレイアウトを得るための重要な要素であることがわかった. また、自己回帰復号化は、下流のレイアウト検出タスクのためのデータ合成器として適用可能であることを示した(4.5節参照)。 しかし、我々の提案は、今後の研究の方向性として、まだ改良の余地があることも指摘しておく。 例えば、追加のプロパティ(フォントやテキストサイズなど)やレイアウトの寸法を生成するように学習することで、様々なサイズの文書(リーフレットなど)に有効となります。 さらに、我々のようなレイアウト合成のためのエンド・ツー・エンドのアプローチを、シーン合成パイプラインに組み込むことも興味深いかもしれません。
4.5. レイアウト検出
この実験は、下流のタスクのためのデータ増強に関する我々のアプローチの利点を示すものである。 文書理解は、単純な光学式文字認識(OCR)にとどまらず、複数のタスクから構成されています。 異なるテキストや画像の配置とその境界(文書レイアウト)を理解することは、テキストの抽出や複雑な文書の読み順の決定などの用途にも必要です。 OCRによる注釈付きのデータは非常に豊富ですが、レイアウト検出の場合はそうはいきません。 文書への注釈付けは面倒な作業であり、曖昧さを伴います。なぜなら、例えば「段落とは何か」を定義するルールは主観的であることが多いからです。 このような曖昧さは、ヒューリスティックに基づいた自動アノテーターを失敗させたり、特定のドメインに制約されたりする原因にもなります[42]。 PubLayNet [42]やLayoutLM [40]、[41]などのほとんどの作品は、CNNを用いたオブジェクト検出バックボーンに基づいています。 ここでは,我々の手法を用いて,PubLayNetデータセット上のレイアウト検出器のトレーニングデータセットを作成する. また,本手法で生成したバウンディングボックスを用いて,レンダリングを行う. そのため,グランドトゥルースアノテーションに基づいて,元のデータセットからこれらを切り出し,クラスと次元に応じて,特定のボックスに最も適したものを使用する. この方法により、アスペクト比を維持することができます。 図3では,このアプローチのいくつかの例を示しています. 我々のモデルから240000個のレイアウトをサンプリングし、Resnet50バックボーン[11]を用いたFaster R-CNNモデル[29]を学習し、PubLayNetのテストセットでの性能を評価した。
さまざまな種類のレイアウト(文書、ユーザーインターフェース、家具の配置など)を合成できる生成モデルは、デザインプロセスを支援したり、合成データを生成するための最初のステップとして有用である。 我々は、自己注意層の特性を利用して、レイアウト内の要素間の高レベルの関係をキャプチャし、これらをよく知られている変分オートエンコーダー(VAE)の構成要素として使用します。 我々が提案する変分変換ネットワーク(VTN)は、マージン、アライメント、その他のグローバルなデザインルールを、明示的な監視なしに学習することができます。 我々のモデルからサンプリングされたレイアウトは、トレーニングデータとの類似性が高く、また魅力的な多様性を示しています。 一般に公開されているベンチマークを用いて、様々な種類のレイアウトを対象とした広範な評価を行った結果、VTNは最先端の多様性と知覚的品質を達成しました。 さらに、文書レイアウト検出パイプラインの一部として、この手法の能力を示します。