使用体验 - Githubissues

opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。

https://opendatalab.com/OpenSourceTools

GNU Affero General Public License v3.0

13.43k stars 1.01k forks source link

Open liepinlxy opened 1 week ago

liepinlxy commented 1 week ago

我们尝试了大概50份文件，发现了一些存在的现象： 1、存在信息内容粘连情况。换行、空格等识别效果不太好 2、复杂结构容易出现内容错乱情况，比如左右结构的文档，比如：文件内容：识别后模块： 3、个别字符前后会加上$符号，比如：文件内容：识别后内容：

问题1、2，我看文档应该是属于TODO部分-》【基于语义的阅读顺序】，麻烦问下这个TODO预计什么时候解决呢？类似问题3应该怎么处理？

myhloli commented 1 week ago

1、2的问题可以在modelscope的demo上测试下新版的效果，相对老版本会有一定改善 3的问题是默认开启了公式识别功能，后续会增加开关，在不需要公式识别的文档上可以单独关闭公式识别功能

liepinlxy commented 1 week ago

我测试了下，效果确实好了一些，现在是还没发版么？

myhloli commented 1 week ago

对，现在还在开发中，只在demo上开放测试

liepinlxy commented 1 week ago

麻烦问下，预计什么时候发版

myhloli commented 1 week ago

10月底

liepinlxy commented 1 week ago

10月底这一版会增加公式识别的开关么？

liepinlxy commented 1 week ago

demo发现了个新的问题，这个结构上面的数据会被丢弃

myhloli commented 1 week ago

现在的训练数据没有见过这种类型的文档，这种上下边界较近的块会被当成header和footer丢掉

liepinlxy commented 1 week ago

类似这种结构的后续可以支持么？

myhloli commented 1 week ago

我们应该没有类似简历这种类型的数据来训练，不知道能否提供一批脱敏的文档给我们微调呢？

liepinlxy commented 1 week ago

我这里也不太多，目前只有这两份，我看看能不能把这份简历转成docx，然后提供这两种简历类型的docx模板给你们

myhloli commented 3 days ago

我们集成了新的版面分析模型doclayout_yolo，在丢弃文本块方面有一些改善，目前已经同步该功能到huggingface和modelscope的demo了，可以自行在线测试效果。