xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
108 stars 12 forks source link

发现 dev 中的一条错误标注 #40

Closed Jacob-Zhou closed 3 months ago

Jacob-Zhou commented 3 months ago

https://github.com/xlxwalex/FCGEC/blob/5a43f232e89108181191e0400db44ac801d2258f/data/FCGEC_valid.json#L618C1-L624C7

 "5b25cca009b6d248efdea5a28f9b392f": {
    "sentence": "伴随着末代港督的离去,这座古典风格的白色建筑在历经一个多世纪的风雨后,新的旗帜将飘扬在香港上空。",
    "error_flag": 1,
    "error_type": "SC",
    "operation": "[{\"Insert\":[{\"pos\":-1,\"tag\":\"INS_7\",\"label\":\"将迎来新的旗帜\"}]}]",
    "version": "FCGEC EMNLP 2022"
},

这条标注存在问题。

在使用convert_fcgec_to_seq2seq.py处理后的结果为:

将迎来新的旗帜伴随着末代港督的离去,这座古典风格的白色建筑在历经一个多世纪的风雨后,新的旗帜将飘扬在香港上空。

xlxwalex commented 3 months ago

你好,

感谢指出标注错误!这里题目的正确解析为:https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1732137184392784193&fr=search

因此应使用Modify操作,将“新的旗帜将飘扬在香港上空”改为“将迎来新的旗帜”,

我们已经标记了这个句子,将在之后和ISSUE 25一起修改。