Open Aaron-Ge opened 4 months ago
在_get_units方法里,这段代码的必要性是什么呢? 发现这个会导致打乱原有百度ocr里的顺序,导致分行错误
你好。这个算法的前提,是假设OCR原有结果是错误的,于是从头开始进行重新排序。
如果你使用百度OCR已经获取了正确的顺序,那么就没有必要使用本算法进行处理了。
本算法是机械式的规则匹配,适用于本身没有排版分析模型的OCR结构。百度OCR等商业接口,可能已经内置了排版分析模型,灵活性和准确性可能比规则匹配更好。
感谢解答,我这边主要是用您的算法解决分行和分列的问题;现在我也在按照我的实际情况调整代码.
在_get_units方法里,这段代码的必要性是什么呢? 发现这个会导致打乱原有百度ocr里的顺序,导致分行错误