为什么文档理解的输入不是pdf或者doc文档，而是图片？

X-PLUG / mPLUG-DocOwl

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

Apache License 2.0

1.12k stars 68 forks source link

@Xiaolong-RRL 很好的问题～

文档的格式可以很多样化，比如doc,pdf,ppt等等，但图片的形式更通用；
现在很多文档理解的产品，比如通义智文，其实是输入文档的，各种格式都可以。背后的算法主要是ocr识别文字，然后直接用LLM来进行文字的理解，也就是常用的"两阶段框架”。这种框架其实能解决大部分问题，但是只抽取文字会丢失结构和位置这一类重要信息，对于一些信息图、chart等很难充分理解，这也是我们探索“不依赖ocr进行图片形式的文档理解”的动机。

X-PLUG / mPLUG-DocOwl