opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
13.43k stars 1.01k forks source link

使用体验 #759

Open liepinlxy opened 1 week ago

liepinlxy commented 1 week ago

我们尝试了大概50份文件,发现了一些存在的现象: 1、存在信息内容粘连情况。换行、空格等识别效果不太好 2、复杂结构容易出现内容错乱情况,比如左右结构的文档,比如: 文件内容: image 识别后模块: image 3、个别字符前后会加上$符号,比如: 文件内容: image 识别后内容: image

问题1、2,我看文档应该是属于TODO部分-》【 基于语义的阅读顺序】,麻烦问下这个TODO预计什么时候解决呢? 类似问题3应该怎么处理?

myhloli commented 1 week ago

1、2的问题可以在modelscope的demo上测试下新版的效果,相对老版本会有一定改善 3的问题是默认开启了公式识别功能,后续会增加开关,在不需要公式识别的文档上可以单独关闭公式识别功能

liepinlxy commented 1 week ago

我测试了下,效果确实好了一些,现在是还没发版么?

myhloli commented 1 week ago

对,现在还在开发中,只在demo上开放测试

liepinlxy commented 1 week ago

麻烦问下,预计什么时候发版

myhloli commented 1 week ago

10月底

liepinlxy commented 1 week ago

10月底这一版会增加公式识别的开关么?

liepinlxy commented 1 week ago

demo发现了个新的问题,这个结构上面的数据会被丢弃 image image

myhloli commented 1 week ago

现在的训练数据没有见过这种类型的文档,这种上下边界较近的块会被当成header和footer丢掉

liepinlxy commented 1 week ago

类似这种结构的后续可以支持么?

myhloli commented 1 week ago

我们应该没有类似简历这种类型的数据来训练,不知道能否提供一批脱敏的文档给我们微调呢?

liepinlxy commented 1 week ago

我这里也不太多,目前只有这两份,我看看能不能把这份简历转成docx,然后提供这两种简历类型的docx模板给你们

myhloli commented 3 days ago

我们集成了新的版面分析模型doclayout_yolo,在丢弃文本块方面有一些改善,目前已经同步该功能到huggingface和modelscope的demo了,可以自行在线测试效果。