mPLUG-DocOwl2: OCR不要の複数ページ文書理解のための高解像度圧縮技術

fulfulggg commented 2 months ago

タイトル: mPLUG-DocOwl2: OCR不要の複数ページ文書理解のための高解像度圧縮技術

リンク: https://arxiv.org/abs/2409.03420

概要:

マルチモーダル大規模言語モデル（MLLM）は、ドキュメント画像のサポート解像度を高めることで、OCR不要のドキュメント理解において有望な性能を実現してきました。しかし、これは1つのドキュメント画像に対して数千ものビジュアルトークンを生成する必要があるため、特に複数ページのドキュメント理解において、GPUメモリを過剰に使用し、推論時間が長くなるという問題がありました。本研究では、これらの課題に対処するため、低解像度のグローバルな視覚特徴をガイドとして、高解像度のドキュメント画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案します。この圧縮モジュールを用いて、複数ページのドキュメント理解能力を強化し、トークン効率と質問応答性能のバランスを取るために、3段階の学習フレームワーク（単一画像事前学習、複数画像継続事前学習、複数タスクファインチューニング）に基づいてDocOwl2を開発しました。DocOwl2は、複数ページのドキュメント理解ベンチマークにおいて新たな最先端技術を確立し、最初のトークンレイテンシを50%以上削減し、複数ページの質問応答、証拠ページを用いた説明、ページ横断的な構造理解において高度な能力を実証しました。さらに、DocOwl2は、類似のデータで学習した単一画像MLLMと比較して、20%未満のビジュアルトークンで同等の単一ページ理解性能を実現しています。私たちのコード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2で公開されています。

fulfulggg commented 2 months ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

llm
model-compression
image-analysis

fulfulggg commented 2 months ago

論文要約