units.sort(key=lambda a: a[0][1])

hiroi-sora / GapTree_Sort_Algorithm

【间隙·树·排序算法】对OCR结果或PDF提取的文本进行版面分析，按人类阅读顺序进行排序。

MIT License

107 stars 15 forks source link

Open Aaron-Ge opened 4 months ago

Aaron-Ge commented 4 months ago

在_get_units方法里,这段代码的必要性是什么呢? 发现这个会导致打乱原有百度ocr里的顺序,导致分行错误

hiroi-sora commented 4 months ago

你好。这个算法的前提，是假设OCR原有结果是错误的，于是从头开始进行重新排序。

如果你使用百度OCR已经获取了正确的顺序，那么就没有必要使用本算法进行处理了。

本算法是机械式的规则匹配，适用于本身没有排版分析模型的OCR结构。百度OCR等商业接口，可能已经内置了排版分析模型，灵活性和准确性可能比规则匹配更好。

Aaron-Ge commented 4 months ago

感谢解答,我这边主要是用您的算法解决分行和分列的问题;现在我也在按照我的实际情况调整代码.