Closed zetian1025 closed 2 years ago
您好,当我使用您的代码做数据预处理时(具体文件为/src/tokenization_enc_dec.py), 发现位于第182行的jieba.cut(text, cut_all=False)无法处理诸如'<s>'这样的特殊token。 jieba会将其分为'<', 's','>'再进行编码,请问这里是否有问题? 还望解答,谢谢!
jieba.cut(text, cut_all=False)
'<s>'
'<'
's'
'>'
您好,当我使用您的代码做数据预处理时(具体文件为/src/tokenization_enc_dec.py), 发现位于第182行的
jieba.cut(text, cut_all=False)
无法处理诸如'<s>'
这样的特殊token。 jieba会将其分为'<'
,'s'
,'>'
再进行编码,请问这里是否有问题? 还望解答,谢谢!