关于相似度的问题

THUDM / GATNE

Source code and dataset for KDD 2019 paper "Representation Learning for Attributed Multiplex Heterogeneous Network"

MIT License

525 stars 141 forks source link

Open Aliang-CN opened 4 years ago

Aliang-CN commented 4 years ago

作者：您好！非常感谢你的开源工作，我在我的数据集上实现了这个模型，不过有个小疑问想和你探讨一下，我在计算两两item之间的相似度的时候，发现相似度几乎是0.99以上，这种现象正常吗？我之前好像也看到有人提出类似的问题。以下是我取其中某一部分数据top10

Aliang-CN commented 4 years ago

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关？导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

cenyk1230 commented 3 years ago

Hi @Aliang-CN,

感谢对我们论文的关注！这个确实是一个非常有意思的现象，但是我这边目前也给不出合理的解释，值得进一步的探究。

Aliang-CN commented 3 years ago

Hi @Aliang-CN,

感谢对我们论文的关注！这个确实是一个非常有意思的现象，但是我这边目前也给不出合理的解释，值得进一步的探究。

我对比了刚初始化和每个epoch出来的模型，发现了一个很奇怪的现象，随着epoch的增加，所有的点都会往一个点上聚合。

Aliang-CN commented 3 years ago

0efd7b52618b19ad055e52404c84140 pre是刚初始化的模型

Aliang-CN commented 3 years ago

@cenyk1230 您好，想咨询一个问题，在阿里生产环境上，增加user节点后，游走的次数大概是多少了。我在我的生产上，增加user节点，游走10遍，效果很差。

DrQinZL commented 2 years ago

同感啊同感啊，训练出来的item embedding都非常相似！！完成没有区分度，怎么办！！

DrQinZL commented 2 years ago

这个问题的引起是否和base_embedding在做随机游走或者Edge_Embedding在抽邻居的时候没考虑权重有关？导致一些相似度很低的item被抽到的概率和相似度很高的item被抽到的概率一样。

赞同，游走没有像node2vec那样加权重，edge embedding聚合也不加权重，最后所有item embedding越来越像