hiroi-sora / Umi-OCR_v2

结束和新的开始
MIT License
915 stars 69 forks source link

英文识别出来,很多单词之间的空格丢失了 #55

Open wtjperi2003 opened 8 months ago

wtjperi2003 commented 8 months ago

比如这张图: Snipaste_2023-11-09_23-02-17 被识别成:

CanIexchangethesegloves for abiggersize?
我能把这副手套换成大一号的吗?

有设置项解决这个问题吗

SmartElec commented 8 months ago

用了很多软件,基本上都没有能精确识别空格和下划线等符号的

hiroi-sora commented 8 months ago

简体中文库是有这个祖传的问题。请将语言/模型库切换为English,使用英文库即可。

英文库识别结果示例:

Can I exchange these gloves for a bigger size?
wtjperi2003 commented 8 months ago

简体中文库是有这个祖传的问题。请将语言/模型库切换为English,使用英文库即可。

英文库识别结果示例:

Can I exchange these gloves for a bigger size?

试了下,中文就识别不了了。怎么弄中文也能识别出来呢

wtjperi2003 commented 8 months ago

语言模型设置成多选,选几个就用几个。显示结果想办法并排放在一起

InMirrors commented 1 month ago

简体中文库是有这个祖传的问题。请将语言/模型库切换为English,使用英文库即可。

英文库识别结果示例:

Can I exchange these gloves for a bigger size?

本来中文和英文之间也应该加上空格。但中文模型容易把空格去掉,甚至包括英文的空格。要是模型能遵守中英文混排加上空格的要求,估计就不会有这种问题了。