issues
search
li-aolong
/
li-aolong.github.io
李傲龍的博客
https://aolong.me
82
stars
16
forks
source link
8.2——NLP相关了解(四)
#17
Open
li-aolong
opened
5 years ago
li-aolong
commented
5 years ago
Word Vector
one-hot
Word2Vec(direct prediciton模型)
优点:可以概括比相关性更为复杂的信息,进行word analogy等任务时效果较好
缺点:对统计信息利用的不够充
实现算法:Skip-Gram model算法;Continuous Bag of Words(CBOW)
SVD(count based模型)
优点:训练快速,有效利用了统计信息
缺点:对高频词汇较为偏向;仅能概括词组的相关性;对解释词的含义等任务效果不好
GloVe算法
融合了矩阵分解Latent Semantic Analysis (LSA)的全局统计信息和local context window优势,融入全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重。
Word Vector