gaz tokenize问题 - Githubissues

v-mipeng / LexiconAugmentedNER

Reject complicated operations for incorporating lexicon for Chinese NER.

435 stars 72 forks source link

Open DSXiangLi opened 3 years ago

DSXiangLi commented 3 years ago

你好我看bert tokenizer只对text进行了tokenize，如果碰到tokenizer把例如1994分成了19和##94, 但是gaz是针对每个character 1/9/9/4识别的BMES word，不会发生输入mismatch的问题么？

v-mipeng commented 3 years ago

很好的问题！这种情况可以将1/9/9/4得BMES标签进行合并处理，如原始的1/9/9/4标签为BMME，分割成19，##94后变成（19）B，（##94）E。这在一步的标签转换可以在tokenizer阶段进行。

DSXiangLi commented 3 years ago

哦哦好的十分感谢～