X-PLUG / mPLUG-DocOwl

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
Apache License 2.0
1.12k stars 68 forks source link

为什么文档理解的输入不是pdf或者doc文档,而是图片? #57

Closed Xiaolong-RRL closed 2 months ago

Xiaolong-RRL commented 2 months ago

小白很直观的问题,为什么这种文档理解大模型的输入不是文档而是图片呢?(在线demo中只能传入图片)

HAWLYQ commented 2 months ago

@Xiaolong-RRL 很好的问题~

  1. 文档的格式可以很多样化,比如doc,pdf,ppt等等,但图片的形式更通用;
  2. 现在很多文档理解的产品,比如通义智文,其实是输入文档的,各种格式都可以。背后的算法主要是ocr识别文字,然后直接用LLM来进行文字的理解,也就是常用的"两阶段框架”。这种框架其实能解决大部分问题,但是只抽取文字会丢失结构和位置这一类重要信息,对于一些信息图、chart等很难充分理解,这也是我们探索“不依赖ocr进行图片形式的文档理解”的动机。
Xiaolong-RRL commented 2 months ago

明白了,看到你们工作的标题,联想到了kimi的文档问答功能,所以有这个疑问,感谢解答~