Open DSXiangLi opened 3 years ago
你好我看bert tokenizer只对text进行了tokenize,如果碰到tokenizer把例如1994分成了19和##94, 但是gaz是针对每个character 1/9/9/4识别的BMES word,不会发生输入mismatch的问题么?
很好的问题!这种情况可以将1/9/9/4得BMES标签进行合并处理,如原始的1/9/9/4标签为BMME,分割成19,##94后变成(19)B,(##94)E。这在一步的标签转换可以在tokenizer阶段进行。
哦哦好的十分感谢~
你好我看bert tokenizer只对text进行了tokenize,如果碰到tokenizer把例如1994分成了19和##94, 但是gaz是针对每个character 1/9/9/4识别的BMES word,不会发生输入mismatch的问题么?