thunlp / CANE

Source code and datasets of "CANE: Context-Aware Network Embedding for Relation Modeling"
MIT License
190 stars 78 forks source link

我想问下AUC指标计算时数据集划分问题 #6

Closed chengqibin closed 7 years ago

chengqibin commented 7 years ago

您在论文中提到,对于数据集划分使用百分比,您对比算法也提到了node2vec,我想问下在数据集划分过程中考虑了训练集中包含所有的顶点吗,能否给出这部分划分的代码,我一直很迷惑

tucunchao commented 7 years ago

在进行link prediction任务时,需要去掉一定比例的边。为了保证不造成孤立节点的出现,每次随机去掉一条边时都会判断一下是否会造成孤立节点,如果不造成的话就把该条边划分到验证集或者测试集。

chengqibin commented 7 years ago

好的,谢谢了,我试试,我之前划分时,第一次按照node2vec算法中随机将训练集和测试集分成一半,一半。后来发现原始数据中的顶点数和训练集顶点数不一致。这方面我一直很头疼。您能给我这方面的代码,我仔细研究下吗

chengqibin commented 7 years ago

您好,我刚刚用了您的数据集HepTh,然后将边划分成训练集和测试集,其中训练集占55%,测试集占45%,我然后随机选择了和测试集同样大小的不存在的边作为验证集,通过AUC的计算,结果相比于您论文中所提的偏高,还是我数据集划分出现了问题吗?希望您有时间帮我解答下

yunfeilongpoly commented 7 years ago

可否介绍一下链路预测任务时候具体的操作流程,如何预测,使用何种相似度指标,AUC计算的时候负采样比例如何?

tucunchao commented 7 years ago

我上传了数据集划分代码以及计算auc的评测代码,请参考~

yunfeilongpoly commented 7 years ago

谢谢您!