WuHuRestaurant / xf_event_extraction2020Top1

科大讯飞2020事件抽取挑战赛第一名解决方案&完整事件抽取系统
536 stars 123 forks source link

预处理中clean_data函数的作用 #30

Open so-coolboy opened 3 years ago

so-coolboy commented 3 years ago

马老师,请问一下,preprocess文件夹下的convert_raw_data.py中的clean_data函数的作用是什么?是因为有的数据中包含多个触发词,所以要单独取出来吗,取得时候设置距离触发词前后的距离为40个字符?

wjy3326 commented 2 years ago

同问,你知道答案了吗

ItGirls commented 2 years ago

其实就是在补全论元,有些标注是有问题的不全面,缺少书名号或者缺少部分内容和书名号等符号,比如原始数据的某一个论元为互联网财险市场分析报告》,通过clean_data,可以将其补全为 《2014-2019年互联网财险市场分析报告》。当然这个操作有时也会有问题,比如《山东省人民政府-中国科学院推进山东新旧动能转换重大工程合作协议》,你在数据中搜索一下就知道为什么有问题了。