TsinghuaAI / CPM-2-Pretrain

Code for CPM-2 Pre-Train
MIT License
159 stars 26 forks source link

数据预处理tokenize无法处理特殊token #25

Closed zetian1025 closed 2 years ago

zetian1025 commented 2 years ago

您好,当我使用您的代码做数据预处理时(具体文件为/src/tokenization_enc_dec.py), 发现位于第182行的jieba.cut(text, cut_all=False)无法处理诸如'<s>'这样的特殊token。 jieba会将其分为'<', 's','>'再进行编码,请问这里是否有问题? 还望解答,谢谢!