thunlp / Neural-Snowball

Code and dataset of AAAI2020 Paper Neural Snowball for Few-Shot Relation Learning
113 stars 23 forks source link

val.json 和 distant.json 的数据重合度很高,是否存在数据泄露问题? #10

Open BaymaxBei opened 2 years ago

BaymaxBei commented 2 years ago

我通过对比val.json 和 distant.json 的tokens数据发现,验证集里的16个关系数据,和distant数据集存在大量的重复,具体重复量如下: {"P177": 531, "P364": 468, "P2094": 520, "P361": 16, "P641": 49, "P59": 106, "P413": 119, "P206": 169, "P412": 247, "P155": 48, "P26": 52, "P410": 454, "P25": 619, "P463": 103, "P40": 57, "P921": 652} 按照Snowball的取数方法,就会存在Relation Classifier的训练集和验证集数据重合的问题,导致模型结果不可信,请问这个问题你们有验证吗?