文档级关系抽取任务定义不一致 - Githubissues

FreedomIntelligence / Evaluation-of-ChatGPT-on-Information-Extraction

An Evaluation of ChatGPT on Information Extraction task, including Named Entity Recognition (NER), Relation Extraction (RE), Event Extraction (EE) and Aspect-based Sentiment Analysis (ABSA).

https://drive.google.com/drive/folders/1vvmXnWRUu_4y9lI89Xh3SkrfBIrGt3RL?usp=sharing

122 stars 9 forks source link

文档级关系抽取任务定义不一致 #5

Closed AnIdealRing closed 8 months ago

AnIdealRing commented 8 months ago

尊敬的作者您好，感谢您杰出的工作，您的工作为ChatGPT在信息抽取中的应用做出了很大的贡献！

最近在阅读您代码的过程中我发现您在文档级关系抽取数据集（如DocRED、Re-DocRED、DWIE）等数据集上进行的实验可能与原始的DocRED等数据集的定义不一致。

具体而言，您在文档级关系抽取的prompt中预先给定了可能有关系的实体对，而在DocRED论文定义（[https://aclanthology.org/P19-1074.pdf]）中，我们不能预先给定可能有关系的实体对，而是需要对所有可能的实体对进行分类。所以，在这种情况下您可能造成了一定的数据泄露，导致F1值偏高。举例而言，您在Re-DocRED集上的结果为大约20%-30% F1，远高于最近同类论文报告的约为10% F1结果https://aclanthology.org/2023.emnlp-main.334.pdf。

请您在论文的更新版本中注明此任务定义的不一致，以避免对社区造成更大的困扰。

RidongHan commented 8 months ago

感谢指出这个问题，谢谢