Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.
https://doc-ee.readthedocs.io/
MIT License
232 stars 36 forks source link

相似度的一些问题 #70

Closed WindSearcher closed 11 months ago

WindSearcher commented 11 months ago

我看您这里是用dot的方式计算实体之间的关系进行边建模,看您之前还试过余弦相似度。 对于相似度,我有个想法不知可行不可行。用目前比较热的对比学习,基于标签进行学习,这样让同一个事件的论元在语义上更相近。 然后还想请问下您还试过哪些相似度方法勒。

Spico197 commented 11 months ago

嗨您好,感谢对本项目和PTPCG的关注~

WindSearcher commented 11 months ago
  • 实体

不是对实体的标签,而是对事件类型的标签。因为同一事件下的论元我们希望它可以两两相连,也就是同一事件下论元的语义相似。

WindSearcher commented 11 months ago

嗨您好,感谢对本项目和PTPCG的关注~

  • 我还尝试过:余弦相似度、拼接后分类、biaffine attention的方法,没有什么明显差距,dot方法略好
  • 关于对比学习:我觉得值得尝试。目前的模型在边关系的预测上表现并不好,如果能找到一种方法提高实体间连接关系的准确率的话应该会很棒。不过这里对实体的标签进行对比学习可能不太好,似乎应该是对边的关系和实体的标签进行对比学习?

这样通过对比学习的方式让同一事件下的论元更相似,不同事件下的论元相离。

Spico197 commented 11 months ago

嗷嗷,明白了。您说的是intra-connection,我刚刚说的是inter-connection。

PTPCG的原始假设是,“同一事件(实例)”下,论元的语义更相似。而您提到的“同一事件类型”下,论元的语义相似,可能会弱化单事件多实例的事件区分能力。

WindSearcher commented 11 months ago

嗷嗷,明白了。您说的是intra-connection,我刚刚说的是inter-connection。

PTPCG的原始假设是,“同一事件(实例)”下,论元的语义更相似。而您提到的“同一事件类型”下,论元的语义相似,可能会弱化单事件多实例的事件区分能力。

emm,这个确实是。看来您提到的边关系对比学习更优。之前看到一篇基于关系建模的文章,对于事件里面的论元建立一种关系,用这个来提升事件抽取的性能。感觉可以用来做边关系建模。 我还尝试了词汇信息的嵌入,让句子融合更多特征,不过作用不是很明显。 不知道您有尝试过大模型嘛

Spico197 commented 11 months ago

PTPCG单事件的性能还不错,只是在单事件多实例的时候不太行,所以我觉得inter-connection的区分和建模会更重要一些。

打比赛(DuEE-fin数据集)的时候有加过RoBERTa-large,效果会好很多。encoder-based模型还可以加更大的版本,不过因为当时的baseline都没用BERT,所以就没做实验了。生成式模型方面,后来还试过T5-small/base,效果不如抽取式。因为资源比较紧张就没再做更大模型的测试了。ChatGPT出来之后,发现ACE05的效果不太行,就没有在ChFinAnn上测试过。

WindSearcher commented 11 months ago

抽取

嗷嗷,感谢您的解答,祝大佬万事顺心。

Spico197 commented 11 months ago

加油,祝一切顺利