thunlp / SE-WRL-SAT

Revised Version of SAT Model in "Improved Word Representation Learning with Sememes"
MIT License
50 stars 8 forks source link

您好,关于pretrained词表规模的一点问题。 #12

Closed qianc62 closed 4 years ago

qianc62 commented 5 years ago

您好,请问pretrained的词表(https://cloud.tsinghua.edu.cn/d/76ab4a71efa541bd8eb3/)有475500个中文单词,而HowNet里貌似只有210000左右。请问不在HowNet里的中文单词是如何处理的?另外,请问有预训练的英文词表吗?期待你的回复,非常谢谢

heyLinsir commented 5 years ago

非常抱歉,之前没有看到issue提醒。对于不在HowNet中的单词,认为它没有义原,也就不需要再使用Attention进行语义判断,即它的语义由一个固定的向量表示。我们没有预训练的英文词表。

qianc62 commented 5 years ago

嗯嗯明白了,谢谢

Yilin Niu notifications@github.com于2019年10月30日 周三15:07写道:

非常抱歉,之前没有看到issue提醒。对于不在HowNet中的单词,认为它没有义原,也就不需要再使用Attention进行语义判断,即它的语义由一个固定的向量表示。我们没有预训练的英文词表。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/thunlp/SE-WRL-SAT/issues/12?email_source=notifications&email_token=ALVYB4XPGHASY65XEMR35ZTQREXCVA5CNFSM4I7VHDIKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOECTD5EQ#issuecomment-547765906, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALVYB4T74THNFEGUZCIG6STQREXCVANCNFSM4I7VHDIA .

-- ┈┈┈┈┈┈┈┈┈┈┈┈ Chen Qian School of Software Tsinghua University Beijing, China qianc62@gmail.com ┈┈┈┈┈┈┈┈┈┈┈┈