zhoujx4 / DuEE

百度2021年语言与智能技术竞赛多形态信息抽取赛道事件抽取部分torch版baseline
72 stars 11 forks source link

项目说明

百度2021年语言与智能技术竞赛多形态信息抽取赛道事件抽取部分Pytorch版baseline 比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/65?isFromLuge=true

官方的baseline版本是基于paddlepaddle框架的,我把它改写成了Pytorch框架,其中大部分代码沿用的是官方提供的代码(如评测代码、保存预测文件代码等) ,只是对框架部分进行了修改,习惯用Pytorch版本的可以基于此进行优化.

环境

先训练生成训练数据脚本

python3 duee_1_data_prepare.py
python3 duee_fin_data_prepare.py

DuEE-1.0

DuEE-Fin



# 效果

为了速度,用的都是rbt3模型(3层的roberta),用更大的模型效果肯定会有更多的提升。

![image-20210418145715313](https://raw.githubusercontent.com/zhoujx4/PicGo/main/img/image-20210418145715313.png)

# 后续优化

- 处理数据的方法
- 清洗数据
- 数据增广
- 模型架构