hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.49k stars 2.76k forks source link

pdf需要对奇偶页面分别设定排除区域,不知道使用现有功能有啥比较好的解决办法? #152

Closed wizardforcel closed 1 year ago

hiroi-sora commented 1 year ago

使用V1.3现有功能的话:

  1. 用第三方软件将PDF转为图片
  2. 打开图片文件夹,将窗口宽度调整到一行只显示两个图片图标
  3. 鼠标拖拽选中第一列全部图标,拷贝到第二个文件夹,即为奇数页
  4. Umi-OCR的设置页勾选输出“原始信息.jsonl文件”,然后分别对奇数页和偶数页的图片作OCR
  5. 写一个简单的脚本,交替读取奇数和偶数页生成的jsonl文件,提取其中的文字信息(textBlockList的text字段),合并为一个纯文本文件
wizardforcel commented 1 year ago

解决了,用 Briss 剪裁就可以了。