Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

请问是否提供out of vocabulary的词向量 #23

Closed lujiaying closed 6 years ago

lujiaying commented 6 years ago

一个oov的词,对应词向量里哪个token呢?

shenshen-hungry commented 6 years ago

oov你可以用所有词向量的平均,或者根据下游任务随机初始化一个向量之后finetune就可以。

rudaoshi commented 6 years ago

难道不是词表里对应 UNKNOWN 的那个向量吗? 训练时你们没有引入 UNK 词?

shenshen-hungry commented 6 years ago

@rudaoshi 我们参考了Google-news-300和GloVe官方的那些大语料训练的词向量,和他们一样也没有引入unk。你可以第一个回复的方法生成unk词向量。