issues
search
hiroi-sora
/
Umi-OCR
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.49k
stars
2.76k
forks
source link
pdf需要对奇偶页面分别设定排除区域,不知道使用现有功能有啥比较好的解决办法?
#152
Closed
wizardforcel
closed
1 year ago
hiroi-sora
commented
1 year ago
使用V1.3现有功能的话:
用第三方软件将PDF转为图片
打开图片文件夹,将窗口宽度调整到一行只显示两个图片图标
鼠标拖拽选中第一列全部图标,拷贝到第二个文件夹,即为奇数页
Umi-OCR的设置页勾选输出“原始信息.jsonl文件”,然后分别对奇数页和偶数页的图片作OCR
写一个简单的脚本,交替读取奇数和偶数页生成的jsonl文件,提取其中的文字信息(textBlockList的text字段),合并为一个纯文本文件
wizardforcel
commented
1 year ago
解决了,用
Briss
剪裁就可以了。
使用V1.3现有功能的话: