关于DWY100K数据集 - Githubissues

lianzhaoy commented 3 years ago

尊敬的作者，您好：您的这项工作是非常伟大的，我学到了很多。其中关于DWY100K数据集，请问您的输入是什么样的？它是否还有descriptions？非常期待并感谢您的回复！

kosugi11037 commented 3 years ago

您好，感谢您对我们工作的关注！关于DWY100K数据集您可以看这个链接(MultiKE)。我们用basic bert unit来编码实体的名字以获得实体的表示，并用于后续的交互模型。关于description，我们在DWY100K数据集上并没有使用description，而是直接使用实体的name。如果您需要用description，或许可以在原知识图谱上进行抽取..?比如DBpedia中实体的描述可以从https://wiki.dbpedia.org/downloads-2016-10这里得到。希望这些能帮到您！

lianzhaoy commented 3 years ago

非常感谢您的回复。

关于multiKE的数据集划分，请问您是直接使用的multiKE的数据集，还是在上面进行了进一步的处理呢？现有代码需要改动以适配multiKE的输入？请问是否可以提供你们的DWY100K的输入？
是否可以提供你们使用basic bert unit来编码实体名字的微调模型呢？

kosugi11037 commented 3 years ago

不好意思回复晚了(最近一段时间一直在忙搬家租房等各种琐事，并且还没弄完orz...) 关于dwy100k的数据集划分，我们是和之前的大部分工作一样将30%的对齐实体对作为训练集，将剩下的70%作为测试集。具体的划分您可以看一下BootEA。关于能否直接使用bootea，multike等提供的数据集文件来运行代码，我们和bootea等用的是同一个dwy100k数据集。但是因为数据集文件名差异等不同，是需要对它们提供的数据集文件进行如文件重命名之类的修改，以适配这份代码的格式的(例如，我们这里划分好的训练集文件名为"sup_pairs"，但是其他的不一定这么叫)。同时，在代码中也需要对个别地方进行修改，例如在这里您可能需要修改下文件名称以能和dwy100k数据集的实际位置对应上。此外，考虑到实体名字长度一般不会太长，您可以考虑把这里的实体名对应的'长度'设置小一点，以提升效率，诸如此类。我近期不在学校且暂时无法回去，暂时不太方便翻找之前的代码来运行并分享模型；不过这份代码不需要太多修改就能在dwy100k上运行了，毕竟逻辑是一样的。您可以通读一遍代码，简单进行修改并运行，然后就能得到对应的模型文件了。如果在这个过程中遇到什么难以解决的问题的话，我的邮箱是txb@ruc.edu.cn，欢迎您随时联系我，希望这些能帮到您！

lianzhaoy commented 3 years ago

十分感谢您在百忙之中进行详细的解答，我先按照您提供的思路运行，后续有疑问再向您请教，谢谢！

kosugi11037 commented 3 years ago

不用客气~

kosugi11037 / bert-int

关于DWY100K数据集 #11