功能建议: 自动识别语言

paul-yangmy commented 2 years ago

感谢大佬无私奉献！有一个小小的建议，能不能像翻译软件那样将常见的语言进行自动识别呢？比如截图识别发现是中文就自动调用中文的paddle库，英文就调英文的，不需要去手动选择语言。谢谢！！！

paul-yangmy commented 2 years ago

不需要像 59issue 这么全，就中英文能自动识别就行

hiroi-sora commented 2 years ago

基本上所有识别库都能读英文，简中通用库也能。只是目前版本在某些场景下精度低于纯英文库 issues 42 ，大多数场景还是应付得来的。也就是，如果日常使用只要识别中文&英文，那么Umi默认附带的简中通用库够用了。
当需要大篇幅、高精度识别英文的场景，还是手动切换英文库好点，机器无法判断通用库还是英文库更好。
进一步，能不能做别的多种语言自动切换，如中文+日文？目前的技术不容易实现，ppocr本身不支持自动判断语言，而且频繁切换语言的代价比较大。我知道有一些OCR软件，自动识别语言的原理是先用第一种语言识别，如果置信度太低，则尝试第二种语言……直到尝试到某一种语言的置信度高，则输出结果。但这样对于ppocr引擎就太慢了。ppocr的优点是长期/批量识别的速度快，代价是初始化/载入模型慢。

我有个建议，有多语言截图需求的用户，可以同时开两个Umi-OCR（为了让配置文件不互相覆盖，应把软件复制到两个不同文件夹下），分别设为不同语言，不同截图快捷键。比如第一个用中文库，快捷键F5，第二个日文库，F6。要哪个语言，按相应的键即可。

paul-yangmy commented 2 years ago

谢谢！

hiroi-sora / Umi-OCR