lonePatient / BERT-NER-Pytorch

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)
MIT License
2.05k stars 425 forks source link

关于tokenizer.tokenize的疑问 #86

Open lsx0930 opened 2 years ago

lsx0930 commented 2 years ago

看过tf的tokenizer的代码,输入的是句子或者单个char,返回的是单个句子或者单个char 而torch的输入输入的是句子或者单个char,返回的是单个句子list或者单个char的list

重要的问题是,如果输入的单个char本身是unk类型的字符,pytorch的tokenizer.tokenize(char) 居然返回的为空而不是[UNK]? 好奇pytorch为啥这样搞,这样直接导致训练数据x和label没办法对齐了......

jenfung commented 1 year ago

请问解决了吗,我也对齐不了……