Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.
https://doc-ee.readthedocs.io/
MIT License
234 stars 36 forks source link

伪触发词 #29

Closed wuhua5027 closed 2 years ago

wuhua5027 commented 2 years ago

您好,在看代码的时候发现zheng2019_trigger_graph.py中伪触发词选择的是测试集中重要性最高的,请问这是否是合理的呢

Spico197 commented 2 years ago

ChFinAnn数据集中train、dev和test的情况几乎一致,且数据量比较大,所以都可以。 也可以只用train、只用dev或train+dev+test。当数据量不够大,个体差异不能忽略(无统一规律);或三个数据部分之前差距过大时才会出现伪触发词选择上的明显差异。

xxllp commented 2 years ago

伪触法词是 针对没有触法词自己构建的吗