LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

nogawanogawa commented 7 months ago

論文URL

https://arxiv.org/abs/2404.05225

著者

Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao

会議

CVPR 2024

背景

目的

アプローチ

ひとことメモ

nogawanogawa commented 7 months ago

背景

文書のレイアウト情報が文書理解に不可欠であることは広く受け入れられているが、LLMに直接テキストを与えて文書レイアウト情報を伝達することは通常困難である。平坦化されたテキストか座標付きのテキストとして表現されることがあるが、平坦化はレイアウト情報を排除し、座標情報があったとしてもLLMがこのフォーマットを効果的に理解出来るとは限らない。

MLLM等を利用する動きもあるが、通常画像のキャプションなどに利用される関係で、文書のレイアウト情報を抽出することは一般的に困難になってる。

nogawanogawa commented 7 months ago

目的

文書レイアウトの理解度向上

アプローチ

LayoutLLM
- グローバルからローカルへの文書レイアウトについて3段階で事前学習
- LayoutCoT

nogawanogawa commented 7 months ago

LayoutLM

pre-training

nogawanogawa commented 7 months ago

結果

nogawanogawa commented 7 months ago

あんま読んでないけどクローズ

nogawanogawa / paper_memo