hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
24.51k stars 2.48k forks source link

识别汉字+拼音的字体文档问题 #379

Closed laoyunz closed 5 months ago

laoyunz commented 6 months ago

直接整页识别就全部乱掉了,单行遮盖拼音提取虽然准确但非常耗时,这种拼音+汉字的字体有解决办法吗

hiroi-sora commented 6 months ago

由于模型库本身没有针对拼音进行训练,所以对于这种复杂情景,按正常的方法确实不太好办。最准确的方法还是机器粗提取+人工校对,或者手动设置忽略区域。

如果你想在一定程度上自动屏蔽拼音,可以尝试先正常的识别整本文档,然后删除所有英文字符。

进一步的,你可以在批量OCR页的设置中,勾选保存文件类型为“jsonl原始信息”。然后,编程逐行读入这个jsonl文件,如果一个文本块中英文字符的占比超过50%,则抛弃该文本块,收集剩余的文本块。这样会更方便、更准确,不过需要你会一点编程基础。