ChineseTokenize疑惑 - Githubissues

您好，感谢matchzoo开源，下面有2个问题请教下，谢谢疑惑1：为什么源码里面中文tokenize每个字之间会有那么多空格，空格也不会被PuncRemoval去掉，输入多了那么多空格不会有问题吗？还是我理解有问题疑惑2：lcqmc数据集，用esim模型，默认参数，把疑惑1中的ChineseTokenize的空格去掉，训练过程总是第一个epoch就出现loss是nan(保留ChineseTokenize的空格就不会出现nan，但是跑出来acc只有0.7不到，一些paper都有0.82左右)，尝试调试lr，也无效

NTMC-Community / MatchZoo

ChineseTokenize疑惑 #839