Open 1024er opened 2 years ago
您好, 我下载预训练数据后发现里面有一些 & , < 这样被转义后的token,这些您有做 unescape 么?
感谢
您好,我们并没有对原始的数据集做其他的清洗工作,仅仅使用了NLTK进行简单的分词来将@之类的特殊符号与单词分割开与下游数据集保持一致。
您好, 我下载预训练数据后发现里面有一些 & , < 这样被转义后的token,这些您有做 unescape 么?
感谢