zjukg / KoPA

[Paper][ACM MM 2024] Making Large Language Models Perform Better in Knowledge Graph Completion
MIT License
145 stars 8 forks source link

关于负采样 #30

Closed serendipity800 closed 9 months ago

serendipity800 commented 9 months ago

这是一项非常有意义的工作!为了更好地复现这篇工作,我有几个问题:

  1. 模型训练过程用到了负采样,请问目前的实验结果(arxiv preprint版本)使用的训练过程负采样比例是多少?
  2. 负采样的方法是什么?
  3. 如果负采样导致了正负例样本不均衡,训练过程中会不会进行重采样 / 欠采样,batch的构造完全随机嘛?
Zhang-Each commented 9 months ago

你好,关于负采样的几个问题的回答如下:

  1. 不同的数据集有不同的比例,一般是1:2(FB15K-237N)或者1:4(CoDeX-S)
  2. 负采样的方法和传统的KGE模型如TransE类似,是将正样本的头实体或者尾实体其中一个进行随机的替换,构造新的prompt,对应的标签也换成false
  3. 我们在实验过程中是随机的,关于样本不平衡的问题有待后续研究,但我们尝试之后发现1:1负采样往往效果达不到最好,可以尝试魔改训练时候的loss