Open liepinlxy opened 1 week ago
1、2的问题可以在modelscope的demo上测试下新版的效果,相对老版本会有一定改善 3的问题是默认开启了公式识别功能,后续会增加开关,在不需要公式识别的文档上可以单独关闭公式识别功能
我测试了下,效果确实好了一些,现在是还没发版么?
对,现在还在开发中,只在demo上开放测试
麻烦问下,预计什么时候发版
10月底
10月底这一版会增加公式识别的开关么?
demo发现了个新的问题,这个结构上面的数据会被丢弃
现在的训练数据没有见过这种类型的文档,这种上下边界较近的块会被当成header和footer丢掉
类似这种结构的后续可以支持么?
我们应该没有类似简历这种类型的数据来训练,不知道能否提供一批脱敏的文档给我们微调呢?
我这里也不太多,目前只有这两份,我看看能不能把这份简历转成docx,然后提供这两种简历类型的docx模板给你们
我们集成了新的版面分析模型doclayout_yolo,在丢弃文本块方面有一些改善,目前已经同步该功能到huggingface和modelscope的demo了,可以自行在线测试效果。
我们尝试了大概50份文件,发现了一些存在的现象: 1、存在信息内容粘连情况。换行、空格等识别效果不太好 2、复杂结构容易出现内容错乱情况,比如左右结构的文档,比如: 文件内容: 识别后模块: 3、个别字符前后会加上$符号,比如: 文件内容: 识别后内容:
问题1、2,我看文档应该是属于TODO部分-》【 基于语义的阅读顺序】,麻烦问下这个TODO预计什么时候解决呢? 类似问题3应该怎么处理?