Open daiyongya opened 4 years ago
@daiyongya
对于doc-word边我试了TF,TFIDF,TFIDF明显好于TF,ohsumed数据集高三个点左右。对于word-word边我试了共生次数,PMI,词向量(Glove)余弦相似度,PMI乘以词向量余弦相似度, 发现单独用PMI最好。
我在build_graph.py用的cosine 的来源是:https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html 这里是距离而不是相似度,相似度应该是1-cosine(a,b)
@yao8839836 谢谢你的回复。再请教一下,我看你做vocab的时候,没有进行stem,lemma之类的操作,直接把raw word当作vocab的单词了,然后你文章没有采用embedding,因为效果不如one hot好,会不会是因为,当你加载word embedding的时候,太多词语没有进行标准化,找不到相关的embedding然后degrade its performance了
@daiyongya
在remove_words.py里做了简单的预处理,大多数词是能找到Glove中的向量的。
我看了您在其他issue里面的回答,计算edge weight采用了tf-idf,相比于idf效果更好一些。我看您代码里面有cosine来测量,最终没有采用。所以请教下: