649453932 / Bert-Chinese-Text-Classification-Pytorch

使用Bert,ERNIE,进行中文文本分类
MIT License
4.03k stars 899 forks source link

换成自己的数据集后 编码报错 #129

Open muzimua opened 2 years ago

muzimua commented 2 years ago

将自己csv格式的数据另存为txt后,运行该程序报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte,要怎么解决呢?需要修改哪些地方呢

chenglong19920630 commented 2 years ago

编码问题,搜索查一下就能解决了

muzimua commented 2 years ago

感谢回复,我通过把自己的数据内容完全复制粘贴到原始的数据集txt中,可解决该问题。

liyuqiu-div commented 2 years ago

你处理数据集的时候,类别是手动标注的吗