Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.76k stars 2.31k forks source link

PPMI模型维度问题 #128

Closed ridiculousze closed 3 years ago

ridiculousze commented 3 years ago

PPMI模型加载出来之后稀疏矩阵维度不一致,行是635969,而列是635970,想了解:行列的序号是对应的吗,还是列序号未经过排序~如果未排序,可以有列序号对应的词表吗?谢谢!

shenshen-hungry commented 3 years ago

ppmi的target word和context word的数量确实是不一样的。因为我们训练用的ngram2vec是先建立target-context pair,这个过程是有subsampling和dynamic window机制,导致了某些词在target和context中出现的次数不一样。