seanliang / ConvertToUTF8

A Sublime Text 2 & 3 plugin for editing and saving files encoded in GBK, BIG5, EUC-KR, EUC-JP, Shift_JIS, etc.
https://github.com/seanliang/ConvertToUTF8
MIT License
900 stars 178 forks source link

含有形似中点(·)的文件转换出错 #59

Open dofine opened 9 years ago

dofine commented 9 years ago

参考: http://idarkside.org/posts/middle-dot/ GBK 中 没有 U+30FB KATAKANA MIDDLE DOT 对应的字符编码,含有这个中点的文件转换时就会提示错误。。

secmax commented 9 years ago

U+00B7 MIDDLE DOT 换成这个

dofine commented 9 years ago

@secmax Thanks!批量替换一下好了。从别人那里拿来的文件里面都是 U+30FB,但是我自己用Google输入法打出来的却是 U+00B7 。

seanliang commented 9 years ago

根据 https://hg.python.org/cpython/file/default/Modules/cjkcodecs/_codecs_cn.c 代码所示,Python会对该字符进行一定的转换。我本地做了个简单测试,文件会被检测并加载为 GB2312 编码,随后通过“Reload with Encoding”也能正确转换为 GBK 编码。但如果你的文件是GBK字符集,有可能会产生无法转换的错误,可能的话请将文本文件发给我测试。

dofine commented 9 years ago

@seanliang 已经发送到您联系方式里的雅虎邮箱内了。我测试的平台是 Windows 7.