v-mipeng / LexiconAugmentedNER

Reject complicated operations for incorporating lexicon for Chinese NER.
435 stars 72 forks source link

gaz tokenize问题 #38

Open DSXiangLi opened 3 years ago

DSXiangLi commented 3 years ago

你好我看bert tokenizer只对text进行了tokenize,如果碰到tokenizer把例如1994分成了19和##94, 但是gaz是针对每个character 1/9/9/4识别的BMES word,不会发生输入mismatch的问题么?

v-mipeng commented 3 years ago

很好的问题!这种情况可以将1/9/9/4得BMES标签进行合并处理,如原始的1/9/9/4标签为BMME,分割成19,##94后变成(19)B,(##94)E。这在一步的标签转换可以在tokenizer阶段进行。

DSXiangLi commented 3 years ago

哦哦好的十分感谢~