Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.
https://doc-ee.readthedocs.io/
MIT License
232 stars 36 forks source link

分句 (uncommon sentence cutoff in DuEE-fin) #75

Closed miraitowa9 closed 9 months ago

miraitowa9 commented 10 months ago

您好,我想请问一下,我运行完build_data.py后的分句结果是这样的,这是按什么规则分的句啊? 很多类似这样的例子,分句之后的句子后半段被删除了,可是删除的部分还包含部分论元,这样导致丢失了好多论元。 请问有什么解决方法吗? image

Spico197 commented 10 months ago

嗨您好,感谢对本项目的关注。这个结果看着确实很奇怪。DuEE-fin的切句工具用的是一个自己写的标点切分工具,之前测试的时候没有发现有删除文本的现象,可能是哪里有bug。可以麻烦你单独使用这里的分句工具测试一下这个文档,然后对比前后的区别吗?感谢反馈!

https://github.com/Spico197/DocEE/blob/a32b6f8bf0b2fe28b9942b0b53eff461abf561ba/Data/DuEEData/build_data.py#L21-L47

miraitowa9 commented 10 months ago

您好,我尝试直接用这段代码处理了我这段文本,他的分句是没有问题的。 image image 不知道为什么,运行完build_data.py之后的dueefin_train_w_tgg.json文件的"sentences"属性的分句结果就有一些混乱了 image 有的按逗号分句,有的百分比后面的数字被删除,有的是特殊符号分句

Spico197 commented 10 months ago

这个很奇怪,我测试一下。

miraitowa9 commented 10 months ago

非常感谢!辛苦啦!

Spico197 commented 10 months ago

嗨您好,是因为超出最大句长(128),所以句子后面的内容直接被删除了。 image

Spico197 commented 10 months ago

非常感谢您找到了这个潜在的问题。这里确实会影响线下dev的评价结果,因为超出部分的arguments是不包含在内的。不过论文里的开发集结果是在相同设置下跑的,还是可以在相同设置下公平对比。最终效果还是以线上测试集结果为准。

For all researchers who see this issue, here's what happened: @miraitowa9 found the max_seq_len is set to 128 when building DuEE-fin. This indicates the golden event arguments may be less than the real answer (if one argument appears in the cutoff part, the argument would be set to null in the golden labels). However, since all the baselines are compared under the same setting, the trending and ranking is still reasonable. For all following researchers, I highly recommend you to submit the test2 predictions to the online evaluation platform and get the final results for real fair comparison.

Thanks again to miraitowa9 !

miraitowa9 commented 10 months ago

非常感谢您的耐心解答!!我尝试将max_seq_len设置为256之后就没有丢失论元的情况了。我想咨询一下将max_seq_len设置大之后会影响后面模型预测的结果吗?

Spico197 commented 10 months ago

为了和其它方案做公平比较,统一采用前人的设置,其它设置没有测试过。

miraitowa9 commented 10 months ago

好的,谢谢!

miraitowa9 commented 9 months ago

请问,您尝试过文档级事件抽取的procnet模型吗?这个模型的效果好像也还不错,您有没有想过把它集成到您的代码中呢?

Spico197 commented 9 months ago

Hi, 感谢提问。我计划是长期维护这个repo,尽可能地收集更多的文档事件抽取方法,只是最近比较忙,确实时间有限。欢迎大家贡献代码~

miraitowa9 commented 9 months ago

我觉得你的这个repo做的非常不错!!!所以推荐这个代码:https://github.com/xnyuwg/procnet

Spico197 commented 9 months ago

感谢感谢,这篇工作我一直在关注,性能和结果都非常好。我会找时间加进来的,感谢推荐!

miraitowa9 commented 9 months ago

好的,非常期待!