pdf需要对奇偶页面分别设定排除区域，不知道使用现有功能有啥比较好的解决办法？ - Githubissues

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.49k stars 2.76k forks source link

pdf需要对奇偶页面分别设定排除区域，不知道使用现有功能有啥比较好的解决办法？ #152

Closed wizardforcel closed 1 year ago

hiroi-sora commented 1 year ago

使用V1.3现有功能的话：

用第三方软件将PDF转为图片
打开图片文件夹，将窗口宽度调整到一行只显示两个图片图标
鼠标拖拽选中第一列全部图标，拷贝到第二个文件夹，即为奇数页
Umi-OCR的设置页勾选输出“原始信息.jsonl文件”，然后分别对奇数页和偶数页的图片作OCR
写一个简单的脚本，交替读取奇数和偶数页生成的jsonl文件，提取其中的文字信息（textBlockList的text字段），合并为一个纯文本文件

wizardforcel commented 1 year ago

解决了，用 Briss 剪裁就可以了。