425776024 / lasertagger-chinese

lasertagger-chinese;lasertagger中文学习案例,案例数据,注释,shell运行
75 stars 15 forks source link

需要先对文本进行tokenize吗 #8

Open drxmy opened 3 years ago

drxmy commented 3 years ago

您好,我想请教一下,我看官方开源的里面写着说数据要先tokenize,这个单指分词呢?还是分词后要进一步转化为数字?因为我看这个issue里面https://github.com/google-research/lasertagger/issues/11 ,还提到了detokenize。