YoumiMa / dreeam

source code for {D}ocument-level {R}elation {E}xtraction with {E}vidence-guided {A}ttention {M}echanism
MIT License
71 stars 15 forks source link

如果用中文数据集的话,在代码里做出那些调整? #21

Open qinglongheu opened 5 months ago

YoumiMa commented 5 months ago

@qinglongheu 您好,感谢您对本项目的兴趣!

本项目并未针对中文数据集进行测试,但只要按照格式备齐以下文件,应该可以在中文数据集上运行:

希望这能解决您的问题,谢谢!

qinglongheu commented 4 months ago

@qinglongheu 您好,感谢您对本项目的兴趣!

本项目并未针对中文数据集进行测试,但只要按照格式备齐以下文件,应该可以在中文数据集上运行:

  • docred同一格式的train, dev, test set;
  • 关系标签的相关信息,放置在meta/目录下(可以参考这个目录):

    • rel2id.json: (relation label, relation id)的键值对;
    • rel_info.json: (relation name, relation label)的键值对。

希望这能解决您的问题,谢谢!

感谢你的回复!

qinglongheu commented 4 months ago

你好,我在跑中文数据集,遇到这样的问题在prepro.py中的read_docred函数中出现这样的断言:assert len(relations) == len(entities) * (len(entities) - 1), 请问这个断言的目的是?

YoumiMa commented 4 months ago

@qinglongheu 您好,此断言是为了确保关系标签的数量(len(relations))与实体组的数量(文章中有len(entities)个实体时,实体组的数量是len(entities) * (len(entities) - 1))相同。如果此断言没有通过,不妨确认prepro.py的L.215 - L.239是否存在向列表relations中漏添或多添实体组的情况。 希望这能解决您的问题。