THUDM / GATNE

Source code and dataset for KDD 2019 paper "Representation Learning for Attributed Multiplex Heterogeneous Network"
MIT License
525 stars 141 forks source link

关于相似度的问题 #63

Open Aliang-CN opened 4 years ago

Aliang-CN commented 4 years ago

作者: 您好!非常感谢你的开源工作,我在我的数据集上实现了这个模型,不过有个小疑问想和你探讨一下,我在计算两两item之间的相似度的时候,发现相似度几乎是0.99以上,这种现象正常吗?我之前好像也看到有人提出类似的问题。以下是我取其中某一部分数据top10 image

Aliang-CN commented 4 years ago

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关?导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

cenyk1230 commented 3 years ago

Hi @Aliang-CN,

感谢对我们论文的关注!这个确实是一个非常有意思的现象,但是我这边目前也给不出合理的解释,值得进一步的探究。

Aliang-CN commented 3 years ago

Hi @Aliang-CN,

感谢对我们论文的关注!这个确实是一个非常有意思的现象,但是我这边目前也给不出合理的解释,值得进一步的探究。

我对比了刚初始化和每个epoch出来的模型,发现了一个很奇怪的现象,随着epoch的增加,所有的点都会往一个点上聚合。

Aliang-CN commented 3 years ago

0efd7b52618b19ad055e52404c84140 pre是刚初始化的模型

Aliang-CN commented 3 years ago

@cenyk1230 您好,想咨询一个问题,在阿里生产环境上,增加user节点后,游走的次数大概是多少了。我在我的生产上,增加user节点,游走10遍,效果很差。

DrQinZL commented 2 years ago

同感啊同感啊,训练出来的item embedding都非常相似!!完成没有区分度,怎么办!!

DrQinZL commented 2 years ago

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关?导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

赞同,游走没有像node2vec那样加权重,edge embedding聚合也不加权重,最后所有item embedding越来越像