tesseractOCR_umi_plugin排版解析方案一定要设为“不做处理”吗？

hiroi-sora / Umi-OCR_plugins

Umi-OCR 插件库

MIT License

314 stars 32 forks source link

tesseractOCR_umi_plugin排版解析方案一定要设为“不做处理”吗？ #5

Closed zhang569786645 closed 7 months ago

zhang569786645 commented 8 months ago

我设置成其他的好像也可以使用呀，还有要使用这个插件是不是必须先把原来自带的插件删掉？有办法不删除原来的插件，在OCR里选择使用哪个插件吗？

hiroi-sora commented 8 months ago

可以同时导入多个插件，无需删除。修改当前使用的插件： 全局设置→文字识别→修改当前接口→点击【应用修改】
关于排版解析方案，是这样的：

TesseractOCR 内部有一个机器学习模型实现的排版解析方案，灵活性较高。 Umi-OCR内部有一些常规算法实现的排版解析方案，对复杂布局可能没那么灵活。

如果 不设为不做处理 ，那么 Umi 的排版结果会覆盖 TesseractOCR 的排版结果。

zhang569786645 commented 8 months ago

我在识别两列数字（两列文字中间有空格）的时候，想让这两列文字位于EXCEL的两列单元格里。如果排版设置成不做处理，识别后两列数字全部被放入一个单元格了，这不是我想要的结果。目前我是使用排版为单栏-保留缩进复制粘贴进excel，会把识别文字列为一栏，再用excel里的分列功能把两列文字拆开，变成两列。请问有更好的办法吗？

hiroi-sora commented 8 months ago

识别两列数字（两列文字中间有空格）

一个取巧的办法是每列数字单独截图，分别截取左右两张图，得到两列结果，粘贴进Excel里。

可以对比一下，这种方法和手动调用Excel的分列比，哪个更方便。