我想问下AUC指标计算时数据集划分问题

thunlp / CANE

Source code and datasets of "CANE: Context-Aware Network Embedding for Relation Modeling"

MIT License

190 stars 78 forks source link

Closed chengqibin closed 7 years ago

chengqibin commented 7 years ago

您在论文中提到，对于数据集划分使用百分比，您对比算法也提到了node2vec，我想问下在数据集划分过程中考虑了训练集中包含所有的顶点吗，能否给出这部分划分的代码，我一直很迷惑

tucunchao commented 7 years ago

在进行link prediction任务时，需要去掉一定比例的边。为了保证不造成孤立节点的出现，每次随机去掉一条边时都会判断一下是否会造成孤立节点，如果不造成的话就把该条边划分到验证集或者测试集。

chengqibin commented 7 years ago

好的，谢谢了，我试试，我之前划分时，第一次按照node2vec算法中随机将训练集和测试集分成一半，一半。后来发现原始数据中的顶点数和训练集顶点数不一致。这方面我一直很头疼。您能给我这方面的代码，我仔细研究下吗

chengqibin commented 7 years ago

您好，我刚刚用了您的数据集HepTh，然后将边划分成训练集和测试集，其中训练集占55%，测试集占45%，我然后随机选择了和测试集同样大小的不存在的边作为验证集，通过AUC的计算，结果相比于您论文中所提的偏高，还是我数据集划分出现了问题吗？希望您有时间帮我解答下

yunfeilongpoly commented 7 years ago

可否介绍一下链路预测任务时候具体的操作流程，如何预测，使用何种相似度指标，AUC计算的时候负采样比例如何？

tucunchao commented 7 years ago

我上传了数据集划分代码以及计算auc的评测代码，请参考~

yunfeilongpoly commented 7 years ago

谢谢您！