Closed lavinal712 closed 1 year ago
当我运行数据预处理程序时,出现了
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence
报错。我尝试将 gbk 换成 gb18030,进而使用ignore
属性忽略非法字符,都出现了错误。此外,我还尝试了其他的数据,如百度和medical,都遇到了此问题。请问这是编辑器环境的问题还是数据的问题,以及该如何解决?
那这个就很奇怪了,好像没有其余人反馈过这个问题。一般来说是数据编码的问题,但是为啥只有你遇到了,你再查一查吧。
解决了,用 utf-8 编码
我用win10跑也遇到了这个问题,ubuntu则没遇到
我在本地 PyCharm 中运行。解决方法是修改为 with open('./data/wikipedia-cn-20230720-filtered.json','r',encoding='utf-8') as f:
。
可能与 PyCharm 中的设置有关。
当我运行数据预处理程序时,出现了
UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 27: illegal multibyte sequence
报错。我尝试将 gbk 换成 gb18030,进而使用ignore
属性忽略非法字符,都出现了错误。此外,我还尝试了其他的数据,如百度和medical,都遇到了此问题。请问这是编辑器环境的问题还是数据的问题,以及该如何解决?