关于 GBK 编码的问题

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

关于 GBK 编码的问题 #7

Closed lavinal712 closed 1 year ago

lavinal712 commented 1 year ago

当我运行数据预处理程序时，出现了 UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence 报错。我尝试将 gbk 换成 gb18030，进而使用 ignore 属性忽略非法字符，都出现了错误。此外，我还尝试了其他的数据，如百度和medical，都遇到了此问题。

请问这是编辑器环境的问题还是数据的问题，以及该如何解决？

DLLXW commented 1 year ago

当我运行数据预处理程序时，出现了 UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence 报错。我尝试将 gbk 换成 gb18030，进而使用 ignore 属性忽略非法字符，都出现了错误。此外，我还尝试了其他的数据，如百度和medical，都遇到了此问题。

请问这是编辑器环境的问题还是数据的问题，以及该如何解决？

那这个就很奇怪了，好像没有其余人反馈过这个问题。一般来说是数据编码的问题，但是为啥只有你遇到了，你再查一查吧。

lavinal712 commented 1 year ago

解决了，用 utf-8 编码

ZK-Zhou commented 1 year ago

我用win10跑也遇到了这个问题，ubuntu则没遇到

lavinal712 commented 1 year ago

我在本地 PyCharm 中运行。解决方法是修改为 with open('./data/wikipedia-cn-20230720-filtered.json','r',encoding='utf-8') as f:。

可能与 PyCharm 中的设置有关。