xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
104 stars 12 forks source link

数据集里面很多打标是错误的,这是怎么回事啊? #25

Open Rclurn opened 10 months ago

Rclurn commented 10 months ago

"2c9026bd7a4e6deafeacbe37f4678b78": { "sentence": "一些网民认为,涉黑案件中的被告人否认涉黑,是因为他们抱有侥幸心理,是助长其嚣张气焰的“保护伞”尚未打掉,法院应进一步加大查处力度。", "error_flag": 1, "error_type": "CM", "operation": "[{\"Modify\":[{\"pos\":33,\"tag\":\"MOD_18+INS_3\",\"label\":\"是助长其嚣张气焰的“保护伞”尚未打掉的表现\"}]}]", "version": "FCGEC EMNLP 2022" } 这里不应该只是插入“的表现”么? "0326b9713d05e155ec25eb17d50e67a8": { "sentence": "由于法律意识淡薄,这些售假的摊主设置重重障碍,围攻、阻止工商管理人员正常执行公务。", "error_flag": 1, "error_type": "IWC", "operation": "[{\"Delete\":[23,24,25]},{\"Modify\":[{\"pos\":23,\"tag\":\"MOD_17\",\"label\":\"围攻工商管理人员并组织他们执行公务\"}]}]", "version": "FCGEC EMNLP 2022" } label中不应该是“围攻工商管理人员并阻止他们执行公务”么? "4c07f073554789af9afe6df8455103bb": { "sentence": "温家宝在讲话中说,要建立孤儿国家保障制度,使这个最弱小、最困难的群体能够病有所医、住有所居、生有所养、学有所教。", "error_flag": 1, "error_type": "IWO", "operation": "[{\"Modify\":[{\"pos\":36,\"tag\":\"MOD_19\",\"label\":\"生有所养,病有所医,住有所居,学有所教\"}]}]", "version": "FCGEC EMNLP 2022" } 这个不应该是乱序么? 等等

xlxwalex commented 10 months ago

你好,

你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成,且我们的程序在预处理的时候会根据解析预生成推荐的答案(可见标注手册部分),因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。

但是由于这些有问题的样本在整个语料库中占比不会太大,因此建议直接对MOD和INS的操作进行简单的清洗,如当需要插入或修改非常多Token(例如8个以上)的时候,基本上这个操作/例子(如果其只有这种改法)可以被忽略。

非常感谢你的反馈,我们之后等有时间的时候会再对语料进行检查,来改正这部分的数据。

yanghh2000 commented 10 months ago

还有这个 [联合国安理会昨日通过给了英国和美国一个关键的训; 搭配不当,扩裁象,扩大制裁对象,中方对决议投了赞成票并作了有关说明]

xlxwalex commented 10 months ago

还有这个 [联合国安理会昨日通过给了英国和美国一个关键的训; 搭配不当,扩裁象,扩大制裁对象,中方对决议投了赞成票并作了有关说明]

非常感谢提供错误样本,我们已经记录,之后会一起更新!

Rclurn commented 10 months ago

你好,

你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成,且我们的程序在预处理的时候会根据解析预生成推荐的答案(可见标注手册部分),因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。

但是由于这些有问题的样本在整个语料库中占比不会太大,因此建议直接对MOD和INS的操作进行简单的清洗,如当需要插入或修改非常多Token(例如8个以上)的时候,基本上这个操作/例子(如果其只有这种改法)可以被忽略。

非常感谢你的反馈,我们之后等有时间的时候会再对语料进行检查,来改正这部分的数据。

感谢回复,在[convert_seq2seq_to_operation.py]这个脚本文件中,可以注意到其实数据集中是有很多原始句子与目标句子长度不同的,但是操作还是先switch再进行其他operation的,但是在这个脚本文件中发现只有原始句子与目标句子长度一致,才会进行switch标签的生成,所以想请教一下,类似于这种是人工标注的么?

xlxwalex commented 10 months ago

你好, 你指出的这些问题是存在的。由于语料分成了多个块交给了不同的标注员完成,且我们的程序在预处理的时候会根据解析预生成推荐的答案(可见标注手册部分),因此部分标注员会因为不仔细等原因可能直接按照推荐答案认证作为了最终答案。 但是由于这些有问题的样本在整个语料库中占比不会太大,因此建议直接对MOD和INS的操作进行简单的清洗,如当需要插入或修改非常多Token(例如8个以上)的时候,基本上这个操作/例子(如果其只有这种改法)可以被忽略。 非常感谢你的反馈,我们之后等有时间的时候会再对语料进行检查,来改正这部分的数据。

感谢回复,在[convert_seq2seq_to_operation.py]这个脚本文件中,可以注意到其实数据集中是有很多原始句子与目标句子长度不同的,但是操作还是先switch再进行其他operation的,但是在这个脚本文件中发现只有原始句子与目标句子长度一致,才会进行switch标签的生成,所以想请教一下,类似于这种是人工标注的么?

是的,这个脚本只是用于方便简单的标签转换,因此没有考虑非等长(多操作)的情况。在我们实际工作流程中的数据都是依靠手工标注的(这个脚本只用于从答案解析中产生预标注的标签供标注员参考)。由于我们的标注工具是个图形界面Annotation Handbook.pdf(第10页),所以标注员可以通过鼠标对文字或者文字片段的拖动产生Switch标签。