Closed nogawanogawa closed 7 months ago
文書のレイアウト情報が文書理解に不可欠であることは広く受け入れられているが、LLMに直接テキストを与えて文書レイアウト情報を伝達することは通常困難である。 平坦化されたテキストか座標付きのテキストとして表現されることがあるが、平坦化はレイアウト情報を排除し、座標情報があったとしてもLLMがこのフォーマットを効果的に理解出来るとは限らない。
MLLM等を利用する動きもあるが、通常画像のキャプションなどに利用される関係で、文書のレイアウト情報を抽出することは一般的に困難になってる。
あんま読んでないけどクローズ
論文URL
https://arxiv.org/abs/2404.05225
著者
Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao
会議
CVPR 2024
背景
目的
アプローチ
ひとことメモ