数据预处理tokenize无法处理特殊token

TsinghuaAI / CPM-2-Pretrain

Code for CPM-2 Pre-Train

MIT License

159 stars 26 forks source link

数据预处理tokenize无法处理特殊token #25

Closed zetian1025 closed 2 years ago

zetian1025 commented 2 years ago

您好，当我使用您的代码做数据预处理时(具体文件为/src/tokenization_enc_dec.py)，发现位于第182行的jieba.cut(text, cut_all=False)无法处理诸如'<s>'这样的特殊token。 jieba会将其分为'<', 's','>'再进行编码，请问这里是否有问题？还望解答，谢谢！