Alibaba-NLP / Multi-CPR

[SIGIR 2022] Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval
170 stars 18 forks source link

data/medial/corpus_split_3(4).tsv两个文件打开乱码 #6

Closed zhengmq2010 closed 1 year ago

zhengmq2010 commented 2 years ago

似乎是编码问题,split1和split2显示正常,split3和split4显示乱码,前两者是用utf-8,后两者显示ansi(但似乎ansi的编码方式与系统有关?),我尝试将后两者转化为utf-8,但是仍然显示乱码,请问该如何解决?

zhengmq2010 commented 2 years ago

我用pycharm读取文件没有问题,除了文件的头一行和最后一行,所以我把文件重新读出来再写一遍,再手动添加上读取错误的头尾行,这样就行了