THUDM / GATNE

Source code and dataset for KDD 2019 paper "Representation Learning for Attributed Multiplex Heterogeneous Network"
MIT License
527 stars 141 forks source link

关于"未来信息"的思考 #87

Closed sudongxiang closed 3 years ago

sudongxiang commented 3 years ago

首先解释一下,这里的“未来信息” 指的是,训练的时候带入了未来信息。

具体到代码,就是get_batches里面neigh数据问题。

例如,neigh生成的时候,里面可能已经包含了y。 (neigh广义上讲,属于x)
已知y,预测y,这显然是不合理的。

本人用代码验证amazon数据验证,证实了我的想法, %30的y数据都是在neigh(x)里面。

如果上述本人的说法有道理,那github的代码可能有些问题(生成neigh的部分)。解决方法是增量,不过这又是一个大工程了。