thunlp / SE-WRL

Improved Word Representation Learning with Sememes
MIT License
195 stars 56 forks source link

您好,关于pretrained词表规模的一点问题。 #30

Closed qianc62 closed 4 years ago

qianc62 commented 5 years ago

您好,请问pretrained的词表(https://cloud.tsinghua.edu.cn/d/76ab4a71efa541bd8eb3/)有475500个中文单词,而HowNet里貌似只有210000左右。请问不在HowNet里的中文单词是如何处理的(也就是HowNet中20+W的词表,最后怎么得到40+W的词向量的呢)?另外,请问有预训练的英文词表吗?期待你的回复,非常谢谢

yangalan123 commented 4 years ago

您好,非常抱歉由于我这边年初工作调动的原因没有及时回复你的问题。对于不在HowNet里的中文单词以及语料中的非频繁词,我们会直接忽略。对于英文数据集上的预训练,目前暂时我们还没有,您可以联系 @heyLinsir 获取更多支持