DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

关于 GBK 编码的问题 #7

Closed lavinal712 closed 1 year ago

lavinal712 commented 1 year ago

当我运行数据预处理程序时,出现了 UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence 报错。我尝试将 gbk 换成 gb18030,进而使用 ignore 属性忽略非法字符,都出现了错误。此外,我还尝试了其他的数据,如百度和medical,都遇到了此问题。

请问这是编辑器环境的问题还是数据的问题,以及该如何解决?

DLLXW commented 1 year ago

当我运行数据预处理程序时,出现了 UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence 报错。我尝试将 gbk 换成 gb18030,进而使用 ignore 属性忽略非法字符,都出现了错误。此外,我还尝试了其他的数据,如百度和medical,都遇到了此问题。

请问这是编辑器环境的问题还是数据的问题,以及该如何解决?

那这个就很奇怪了,好像没有其余人反馈过这个问题。一般来说是数据编码的问题,但是为啥只有你遇到了,你再查一查吧。

lavinal712 commented 1 year ago

解决了,用 utf-8 编码

ZK-Zhou commented 1 year ago

我用win10跑也遇到了这个问题,ubuntu则没遇到

lavinal712 commented 1 year ago

我在本地 PyCharm 中运行。解决方法是修改为 with open('./data/wikipedia-cn-20230720-filtered.json','r',encoding='utf-8') as f:

可能与 PyCharm 中的设置有关。