Closed qianc62 closed 4 years ago
您好,请问pretrained的词表(https://cloud.tsinghua.edu.cn/d/76ab4a71efa541bd8eb3/)有475500个中文单词,而HowNet里貌似只有210000左右。请问不在HowNet里的中文单词是如何处理的(也就是HowNet中20+W的词表,最后怎么得到40+W的词向量的呢)?另外,请问有预训练的英文词表吗?期待你的回复,非常谢谢。
您好,非常抱歉由于我这边年初工作调动的原因没有及时回复你的问题。对于不在HowNet里的中文单词以及语料中的非频繁词,我们会直接忽略。对于英文数据集上的预训练,目前暂时我们还没有,您可以联系 @heyLinsir 获取更多支持
您好,请问pretrained的词表(https://cloud.tsinghua.edu.cn/d/76ab4a71efa541bd8eb3/)有475500个中文单词,而HowNet里貌似只有210000左右。请问不在HowNet里的中文单词是如何处理的(也就是HowNet中20+W的词表,最后怎么得到40+W的词向量的呢)?另外,请问有预训练的英文词表吗?期待你的回复,非常谢谢。