关于负采样 - Githubissues

zjukg / KoPA

[Paper][ACM MM 2024] Making Large Language Models Perform Better in Knowledge Graph Completion

MIT License

145 stars 8 forks source link

关于负采样 #30

Closed serendipity800 closed 9 months ago

serendipity800 commented 9 months ago

这是一项非常有意义的工作！为了更好地复现这篇工作，我有几个问题：

模型训练过程用到了负采样，请问目前的实验结果（arxiv preprint版本）使用的训练过程负采样比例是多少？
负采样的方法是什么？
如果负采样导致了正负例样本不均衡，训练过程中会不会进行重采样 / 欠采样，batch的构造完全随机嘛？

Zhang-Each commented 9 months ago

你好，关于负采样的几个问题的回答如下：

不同的数据集有不同的比例，一般是1:2(FB15K-237N)或者1:4(CoDeX-S)
负采样的方法和传统的KGE模型如TransE类似，是将正样本的头实体或者尾实体其中一个进行随机的替换，构造新的prompt，对应的标签也换成false
我们在实验过程中是随机的，关于样本不平衡的问题有待后续研究，但我们尝试之后发现1:1负采样往往效果达不到最好，可以尝试魔改训练时候的loss