PaddleOCR增加了表格识别的模块，Umi-OCR能否考虑进一步引入表格识别的功能？

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.14k stars 2.72k forks source link

主要问题是工作量太大。如果要大改引擎组件，那么我想跟进到paddle官方的最新版。但是新版的paddle弃用了旧c++推理代码，新搞了一套 fast deploy 的框架。导致如果我要更新引擎组件的话，等于从头写个新项目。我是业余在维护项目，最近写Umi-OCR V2已经占用了全部个人时间，实在没有精力开新坑😂

次要问题是 fast deploy 框架的体积增大了。我测试过这个框架，它为了追求多功能，一股脑塞进了更多动态库，体积增长了几十MB。如果Umi-OCR体积过大，可能塞不进github release，使发布更困难。需要寻找一些精简的方法，或者等隔壁rapid团队出手，将之工程化。

hiroi-sora / Umi-OCR

PaddleOCR增加了表格识别的模块，Umi-OCR能否考虑进一步引入表格识别的功能？ #211