NUSTM / VLP-MABSA

107 stars 10 forks source link

预训练数据集中的 &amp &lt 需要做 unescape 么? #2

Open 1024er opened 2 years ago

1024er commented 2 years ago

您好, 我下载预训练数据后发现里面有一些 &amp , &lt 这样被转义后的token,这些您有做 unescape 么?

image

感谢

lyhuohuo commented 2 years ago

您好,我们并没有对原始的数据集做其他的清洗工作,仅仅使用了NLTK进行简单的分词来将@之类的特殊符号与单词分割开与下游数据集保持一致。