dmMaze / BallonsTranslator

深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearning
GNU General Public License v3.0
2.41k stars 162 forks source link

[编码问题] 简体中文环境下,♡被错误的渲染为≡ #448

Open PiDanShouRouZhouXD opened 3 months ago

PiDanShouRouZhouXD commented 3 months ago

image image 如上图所示,♡被错误的渲染为≡。 经过查询,应当是UTF-8字符被错误的认为是GBK渲染造成的。 0xE2 0x99 0xA1 → 0xA1 0xAB 在命令行中可以正常显示: image

dmMaze commented 3 months ago

出现这个问题的 OCR 是本地的还是你最新提交的?

PiDanShouRouZhouXD commented 3 months ago

出现这个问题的 OCR 是本地的还是你最新提交的?

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

dmMaze commented 3 months ago

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

你看下保存的项目文件里字符是不是也是错的,或者 https://github.com/dmMaze/BallonsTranslator/blob/a5c69501070cdd5af9efeaa6f79542067e2fa2d7/modules/ocr/mit48px.py#L190 看下 ocr 识别出的字符chid是不是对的,那个字典是 data/alphabet-all-v7.txt

qt 这部分应该默认就是 utf8,另外我也是 windows 简中也能正确识别渲染 ♡ 啊,你的代码编辑器没改全局编码吧

而且如果是 utf-8 被错误识别成了 gbk,其它 cjk 字符也会出错才对

PiDanShouRouZhouXD commented 3 months ago

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

你看下保存的项目文件里字符是不是也是错的,或者

https://github.com/dmMaze/BallonsTranslator/blob/a5c69501070cdd5af9efeaa6f79542067e2fa2d7/modules/ocr/mit48px.py#L190

看下 ocr 识别出的字符chid是不是对的,那个字典是 data/alphabet-all-v7.txt qt 这部分应该默认就是 utf8,另外我也是 windows 简中也能正确识别渲染 ♡ 啊,你的代码编辑器没改全局编码吧

而且如果是 utf-8 被错误识别成了 gbk,其它 cjk 字符也会出错才对

我查看了一下工程,是完全正确的……我现在怀疑是我使用vscode的powershell启动程序导致的,有时间排查一下

Raiter123 commented 2 months ago

我也有這個問題呢,換別的字形就行了