关于"未来信息"的思考 - Githubissues

THUDM / GATNE

Source code and dataset for KDD 2019 paper "Representation Learning for Attributed Multiplex Heterogeneous Network"

MIT License

527 stars 141 forks source link

关于"未来信息"的思考 #87

Closed sudongxiang closed 3 years ago

sudongxiang commented 3 years ago

首先解释一下，这里的“未来信息” 指的是，训练的时候带入了未来信息。

具体到代码，就是get_batches里面neigh数据问题。

例如，neigh生成的时候，里面可能已经包含了y。（neigh广义上讲，属于x）
已知y，预测y，这显然是不合理的。

本人用代码验证amazon数据验证，证实了我的想法， %30的y数据都是在neigh（x）里面。

如果上述本人的说法有道理，那github的代码可能有些问题（生成neigh的部分）。解决方法是增量，不过这又是一个大工程了。