hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
25.59k stars 2.59k forks source link

批量OCR转存Excel,打开文件文字乱码怎么处理? #237

Closed ErichTao closed 9 months ago

ErichTao commented 9 months ago

批量OCR,语言简体中文,保存文件类型Excel,txt显示没问题,但是Excel打开后中文乱码、数字正常,尝试过Excel改编码和字体,但是无效。请问下这个要怎么解决? image

hiroi-sora commented 9 months ago

方法一:用文本编辑器(如记事本)打开csv文件,另存为 → 修改编码为 ANSI 。如下图所示。

image

方法二:Excel中 → 数据→ 从文本/csv 。如下图所示。

image

修正程序

你可以通过以下步骤,修改Umi-OCR的代码,使其以后输出ANSI编码的csv以兼容office:

  1. 用记事本打开 UmiOCR-data/py_src/ocr/output/output_csv.py
  2. 在最后面找到一行 with open(self.outputPath, "a", encoding="utf-8", newline="") as f: # 追加写入本地文件
  3. utf-8 改为 ansi 。(注意不要添加或删除原有的空格)
            with open(self.outputPath, "a", encoding="ansi", newline="") as f:
  4. 保存,关闭文件。