Closed laoyunz closed 5 months ago
由于模型库本身没有针对拼音进行训练,所以对于这种复杂情景,按正常的方法确实不太好办。最准确的方法还是机器粗提取+人工校对,或者手动设置忽略区域。
如果你想在一定程度上自动屏蔽拼音,可以尝试先正常的识别整本文档,然后删除所有英文字符。
进一步的,你可以在批量OCR页的设置中,勾选保存文件类型为“jsonl原始信息”。然后,编程逐行读入这个jsonl文件,如果一个文本块中英文字符的占比超过50%,则抛弃该文本块,收集剩余的文本块。这样会更方便、更准确,不过需要你会一点编程基础。
直接整页识别就全部乱掉了,单行遮盖拼音提取虽然准确但非常耗时,这种拼音+汉字的字体有解决办法吗