zjunlp / MKGformer

[SIGIR 2022] Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion
MIT License
168 stars 28 forks source link

关于数据集不一致问题 #18

Closed ririv closed 2 years ago

ririv commented 2 years ago

我发现你们的图片数据集与RSME好像不太一致,以FB15k为例,在你们说给出的百度硬盘提供的数据集只有bing的,但是readme中给出的另一种方法 mmkb 中所下载的数据集同时包括了必应谷歌和雅虎下载的数据集

我也细致地比较了RSME和你们代码中datasets,发现确实有点不一样,我知道可能由于国内上谷歌和雅虎不太方便,但还是想搞清楚,你们的图片数据集(百度网盘提供的)和RSME是否不一致,或者说与你们在readme提供的第一种需要自己用脚本下载的图片数据集不一致

如果是不一致的,那么在训练的时候,你们实际使用的是提供的百度网盘中的数据集,还是第一种需要自己用脚本下载的数据集呢

njcx-ai commented 2 years ago

您好: 感谢您的关注以及提出宝贵意见,现就您的疑问回答如下: ❗NOTE: 我们论文中用到的FB15k-237与RSME中的FB15k不是同一数据集,FB15k-237的任务难度相对更高。

  1. 以FB15k-237为例,我们给出的百度硬盘提供的数据集只是通过bing的爬取的(针对每个entity对应的图片已经足够多),与RSME论文中提到每个entity对应10张图片一致。 谷歌和雅虎因为网络原因未爬取,且实体对应的图片必然非常多但实际可能用不到。
  2. 关于“你们的图片数据集(百度网盘提供的)和RSME是否不一致”问题, 由于RSME并未挂出具体图片我们无从比较,但数据来源应该是一致的,即FB15k-237由bing爬取,WN18由ImageNet获取。
  3. 百度网盘中的数据集就是我们自己用脚本下载且公开给大家使用的,我们的方法和baseline都是在百度网盘中的FB15k-237数据集上运行以做公平对比的。 若您想要探究关于更多实体图片场景下的研究可以通过谷歌和雅虎下载更多图片数据。
ririv commented 2 years ago

好的,谢谢回复

ninjaX2o commented 1 year ago

您好: 你提到:百度网盘提供的数据集与RSME论文中提到每个entity对应10张图片一致。 我发现有的实体文件夹里面不到10张图片,比如实体:m.06439y只有7张,请问你们对图片不足这个问题有没有进行别的处理

njcx-ai commented 1 year ago

您好,感谢关注。这里确实有些实体由于各种原因未能匹配到10张图片,我们的方法对实体图片的数量不是太敏感,这里我们对10张图片随机选7张,然后不足7张的实体我们在相应位置用padding补充。