hiroi-sora / GapTree_Sort_Algorithm

【间隙·树·排序算法】 对OCR结果或PDF提取的文本进行版面分析,按人类阅读顺序进行排序。
MIT License
105 stars 15 forks source link

及时更新/笑哭 #5

Open xzm123456 opened 3 months ago

xzm123456 commented 3 months ago

从Umi-OCR过来的,发现分段、分行、分几栏的功能很好,但是在这边发现好像没有更新,直接抽取Umi-OCR的相关功能发现太难了,所以来拜托博主同步更新下这些功能。

hiroi-sora commented 3 months ago

你要的在这:

https://github.com/hiroi-sora/PaddleOCR-json/tree/main/api/python

不需要一定配合 PaddleOCR-json 引擎使用。只要将OCR结果调整为 PaddleOCR-json 相同的格式,上述代码(文本后处理模块)也可以用于别的OCR引擎或别的领域。

xzm123456 commented 2 months ago

你要的在这:

https://github.com/hiroi-sora/PaddleOCR-json/tree/main/api/python

不需要一定配合 PaddleOCR-json 引擎使用。只要将OCR结果调整为 PaddleOCR-json 相同的格式,上述代码(文本后处理模块)也可以用于别的OCR引擎或别的领域。

感谢博主,今天调试成功了。效果还不错,但是对于空白处,尤其是遇见表格时,还有进步的空间,哈哈哈哈哈哈