识别汉字+拼音的字体文档问题

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

24.51k stars 2.48k forks source link

由于模型库本身没有针对拼音进行训练，所以对于这种复杂情景，按正常的方法确实不太好办。最准确的方法还是机器粗提取+人工校对，或者手动设置忽略区域。

如果你想在一定程度上自动屏蔽拼音，可以尝试先正常的识别整本文档，然后删除所有英文字符。

进一步的，你可以在批量OCR页的设置中，勾选保存文件类型为“jsonl原始信息”。然后，编程逐行读入这个jsonl文件，如果一个文本块中英文字符的占比超过50%，则抛弃该文本块，收集剩余的文本块。这样会更方便、更准确，不过需要你会一点编程基础。

hiroi-sora / Umi-OCR