如果用中文数据集的话，在代码里做出那些调整？

YoumiMa / dreeam

source code for {D}ocument-level {R}elation {E}xtraction with {E}vidence-guided {A}ttention {M}echanism

MIT License

71 stars 15 forks source link

如果用中文数据集的话，在代码里做出那些调整？ #21

Open qinglongheu opened 5 months ago

YoumiMa commented 5 months ago

@qinglongheu 您好，感谢您对本项目的兴趣！

本项目并未针对中文数据集进行测试，但只要按照格式备齐以下文件，应该可以在中文数据集上运行：

与docred同一格式的train, dev, test set;
关系标签的相关信息，放置在meta/目录下（可以参考这个目录）：
- rel2id.json： (relation label, relation id)的键值对；
- rel_info.json: (relation name, relation label)的键值对。

希望这能解决您的问题，谢谢！

qinglongheu commented 4 months ago

@qinglongheu 您好，感谢您对本项目的兴趣！

本项目并未针对中文数据集进行测试，但只要按照格式备齐以下文件，应该可以在中文数据集上运行：

与docred同一格式的train, dev, test set;

关系标签的相关信息，放置在meta/目录下（可以参考这个目录）：

rel2id.json： (relation label, relation id)的键值对；

rel_info.json: (relation name, relation label)的键值对。

希望这能解决您的问题，谢谢！

感谢你的回复！

qinglongheu commented 4 months ago

你好，我在跑中文数据集，遇到这样的问题在prepro.py中的read_docred函数中出现这样的断言：assert len(relations) == len(entities) * (len(entities) - 1)，请问这个断言的目的是？

YoumiMa commented 4 months ago

@qinglongheu 您好，此断言是为了确保关系标签的数量（len(relations)）与实体组的数量（文章中有len(entities)个实体时，实体组的数量是len(entities) * (len(entities) - 1)）相同。如果此断言没有通过，不妨确认prepro.py的L.215 - L.239是否存在向列表relations中漏添或多添实体组的情况。希望这能解决您的问题。