及时更新/笑哭 - Githubissues

hiroi-sora / GapTree_Sort_Algorithm

【间隙·树·排序算法】对OCR结果或PDF提取的文本进行版面分析，按人类阅读顺序进行排序。

MIT License

105 stars 15 forks source link

及时更新/笑哭 #5

Open xzm123456 opened 3 months ago

xzm123456 commented 3 months ago

从Umi-OCR过来的，发现分段、分行、分几栏的功能很好，但是在这边发现好像没有更新，直接抽取Umi-OCR的相关功能发现太难了，所以来拜托博主同步更新下这些功能。

hiroi-sora commented 3 months ago

你要的在这：

https://github.com/hiroi-sora/PaddleOCR-json/tree/main/api/python

不需要一定配合 PaddleOCR-json 引擎使用。只要将OCR结果调整为 PaddleOCR-json 相同的格式，上述代码（文本后处理模块）也可以用于别的OCR引擎或别的领域。

xzm123456 commented 2 months ago

你要的在这：

https://github.com/hiroi-sora/PaddleOCR-json/tree/main/api/python

不需要一定配合 PaddleOCR-json 引擎使用。只要将OCR结果调整为 PaddleOCR-json 相同的格式，上述代码（文本后处理模块）也可以用于别的OCR引擎或别的领域。

感谢博主，今天调试成功了。效果还不错，但是对于空白处，尤其是遇见表格时，还有进步的空间，哈哈哈哈哈哈