NTMC-Community / MatchZoo

Facilitating the design, comparison and sharing of deep text matching models.
Apache License 2.0
3.82k stars 898 forks source link

ChineseTokenize疑惑 #839

Closed jinpeigen closed 3 years ago

jinpeigen commented 3 years ago

您好,感谢matchzoo开源,下面有2个问题请教下,谢谢 疑惑1:为什么源码里面中文tokenize每个字之间会有那么多空格,空格也不会被PuncRemoval去掉,输入多了那么多空格不会有问题吗?还是我理解有问题 疑惑2:lcqmc数据集,用esim模型,默认参数,把疑惑1中的ChineseTokenize的空格去掉,训练过程总是第一个epoch就出现loss是nan(保留ChineseTokenize的空格就不会出现nan,但是跑出来acc只有0.7不到,一些paper都有0.82左右),尝试调试lr,也无效

smelly-dog commented 1 year ago

请问中文tokenize怎么支持的啊,文档里面没有找到