Closed lianzhaoy closed 3 years ago
您好,感谢您对我们工作的关注!关于DWY100K数据集您可以看这个链接(MultiKE)。我们用basic bert unit来编码实体的名字以获得实体的表示,并用于后续的交互模型。 关于description,我们在DWY100K数据集上并没有使用description,而是直接使用实体的name。如果您需要用description,或许可以在原知识图谱上进行抽取..?比如DBpedia中实体的描述可以从https://wiki.dbpedia.org/downloads-2016-10这里得到。 希望这些能帮到您!
非常感谢您的回复。
不好意思回复晚了(最近一段时间一直在忙搬家租房等各种琐事,并且还没弄完orz...) 关于dwy100k的数据集划分,我们是和之前的大部分工作一样将30%的对齐实体对作为训练集,将剩下的70%作为测试集。具体的划分您可以看一下BootEA。 关于能否直接使用bootea,multike等提供的数据集文件来运行代码,我们和bootea等用的是同一个dwy100k数据集。但是因为数据集文件名差异等不同,是需要对它们提供的数据集文件进行如文件重命名之类的修改,以适配这份代码的格式的(例如,我们这里划分好的训练集文件名为"sup_pairs",但是其他的不一定这么叫)。同时,在代码中也需要对个别地方进行修改,例如在这里您可能需要修改下文件名称以能和dwy100k数据集的实际位置对应上。此外,考虑到实体名字长度一般不会太长,您可以考虑把这里的实体名对应的'长度'设置小一点,以提升效率,诸如此类。 我近期不在学校且暂时无法回去,暂时不太方便翻找之前的代码来运行并分享模型;不过这份代码不需要太多修改就能在dwy100k上运行了,毕竟逻辑是一样的。您可以通读一遍代码,简单进行修改并运行,然后就能得到对应的模型文件了。如果在这个过程中遇到什么难以解决的问题的话,我的邮箱是txb@ruc.edu.cn,欢迎您随时联系我,希望这些能帮到您!
十分感谢您在百忙之中进行详细的解答,我先按照您提供的思路运行,后续有疑问再向您请教,谢谢!
不用客气~
尊敬的作者,您好: 您的这项工作是非常伟大的,我学到了很多。 其中关于DWY100K数据集,请问您的输入是什么样的?它是否还有descriptions? 非常期待并感谢您的回复!