DSXiangLi / Embedding

Embedding模型代码和学习笔记总结
36 stars 3 forks source link

word2vec效果 #1

Open cc-cb opened 4 years ago

cc-cb commented 4 years ago

使用您提供的框架训练跟spark版本,python gensim版本对比,效果差别比较大,没有找出原因所在

DSXiangLi commented 4 years ago

@cc-cb 是嘛?之前在item2vec上拿这套框架跑过比较大的数据,感觉效果还比较符合预期,但确实没和gensim仔细对比有。有代码和case可以看下么?我看下能不能复现下找找问题在哪里~

cc-cb commented 4 years ago

你训练大量数据需要多长时间,我是用分布式跑的,很快就结束了

DSXiangLi commented 4 years ago

@cc-cb 这个当时用的和这里给的还不太一样,参数和dataset的部分都没用这里的。印象中100万左右数据,100epochs,batch =1000跑了几个小时吧