opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction
https://pdf-extract-kit.readthedocs.io/zh-cn/latest/index.html
GNU Affero General Public License v3.0
5.24k stars 353 forks source link

MFR post process #168

Open GongChen-NLPer opened 3 hours ago

GongChen-NLPer commented 3 hours ago

感谢开源

我在使用过程中遇到部分latex格式不规范的情况, 我看代码中MFR的结果只调用了一些去除空格的函数。没有做其他后处理。

请问后续是会加入post process吗? 还是以优化MFR模型效果为主呢?

wangbinDL commented 3 hours ago

是的,当前公式输出结果会存在部分冗余、无法渲染的问题,我们已经开始考虑使用后处理模型对这些问题进行修正,优化MFR模型提升空间没有后处理来的快~