咨询下大佬个问题，以监督学习的方式训练网络的时候，训练样本貌似也放进了同batch的不是附近的节点，看监督学习训练的损失是直接用激活函数得到logit后得到损失，这样是不是不太那啥？是不是应该只用正样本吧（监督方式训练的时候）

twjiang / graphSAGE-pytorch

A PyTorch implementation of GraphSAGE. This package contains a PyTorch implementation of GraphSAGE.

621 stars 150 forks source link

发表一下个人拙见：

为了便于计算采用了定长的均匀采样作为领域（也就是采集到正负样本都有可能）
论文中的3.2部分所述损失函数是由两部分加起来的（目的是使得邻域嵌入表示尽可能相近，非领域【应该也就是负样本点】表示尽可能远），前半部分是一个点与其正样本（也就是邻接节点）的相似度，后半部分是一个点与其负样本（非邻接节点）的相似度的相反数。
不同点的邻域点数量不同处理很麻烦（输入就变成一个变长序列了），作者说未来工作可以研究如何使用非均匀采样，如果只采集正样本的话就变成了你说的这种方式。