hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.49k stars 2.76k forks source link

关于特殊字符文件导入处理的不一致 #163

Closed Faith-Mian closed 1 year ago

Faith-Mian commented 1 year ago
  1. 文件名包含🔥,文件拖入umi-ocr中无反应。
  2. 文件夹中包含🔥的文件,文件夹拖入umi-ocr中正常显示所有文件,但执行识别时候这个文件会报错“识别失败,错误码:200 错误信息:Image path dose not exist.”
  3. 不影响使用,欢迎忽略,纯属压力测试:)
hiroi-sora commented 1 year ago

image

嗯,这是引擎组件的一个技术难题。C++读入图片依靠 Windows API 的 _wfopen(),在正常情况下无法识别“非标准字符”的utf-8编码,除非在 Windows 上开启Unicode UTF-8 提供全球语言支持这个选项。(并不建议开启,会给系统带来更多Bug。)

直接将含Emoji的文件拖入Umi-OCR时也一样,Python的拖拽API无法处理特殊utf-8字符。

目前暂时没有好的解决方法,而且像你说的相对不影响使用,所以先不管了😂