Open fulfulggg opened 2 months ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
従来の複数ページ文書理解技術は、高解像度の画像処理に膨大な計算資源を必要としていました。本論文で提案するDocOwl2は、高解像度画像を効率的に圧縮する技術を用いることで、この問題を解決し、高精度かつ高速な文書理解を実現しました。
DocOwl2の主な特徴と成果:
DocOwl2は、高精度かつ効率的な文書理解を実現するための、重要な技術的進歩と言えます。
タイトル: mPLUG-DocOwl2: OCR不要の複数ページ文書理解のための高解像度圧縮技術
リンク: https://arxiv.org/abs/2409.03420
概要:
マルチモーダル大規模言語モデル(MLLM)は、ドキュメント画像のサポート解像度を高めることで、OCR不要のドキュメント理解において有望な性能を実現してきました。しかし、これは1つのドキュメント画像に対して数千ものビジュアルトークンを生成する必要があるため、特に複数ページのドキュメント理解において、GPUメモリを過剰に使用し、推論時間が長くなるという問題がありました。本研究では、これらの課題に対処するため、低解像度のグローバルな視覚特徴をガイドとして、高解像度のドキュメント画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案します。この圧縮モジュールを用いて、複数ページのドキュメント理解能力を強化し、トークン効率と質問応答性能のバランスを取るために、3段階の学習フレームワーク(単一画像事前学習、複数画像継続事前学習、複数タスクファインチューニング)に基づいてDocOwl2を開発しました。DocOwl2は、複数ページのドキュメント理解ベンチマークにおいて新たな最先端技術を確立し、最初のトークンレイテンシを50%以上削減し、複数ページの質問応答、証拠ページを用いた説明、ページ横断的な構造理解において高度な能力を実証しました。さらに、DocOwl2は、類似のデータで学習した単一画像MLLMと比較して、20%未満のビジュアルトークンで同等の単一ページ理解性能を実現しています。私たちのコード、モデル、データはhttps://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2で公開されています。