xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
104 stars 12 forks source link

数据集咨询 #13

Closed GioGioBond closed 1 year ago

GioGioBond commented 1 year ago

我在随机检查数据error_type的时候发现,其中有这么一条数据: "9649376ce406de096f5c49a23177cf46": { "sentence": "由于生产厂家众多,质量.服务不能与国际市场接轨的现象,使得中国的小家电市场没有形成大名牌优势。", "error_flag": 1, "error_type": "CM", "operation": "[{\"Delete\":[0,1,23,24,25]},{\"Delete\":[27,28]}]", "version": "FCGEC EMNLP 2022" } CM表示缺少成分,但是和修改的行为delete并不相符,这是有什么说法吗?是可以理解为虽然语义错误是缺少成分,但是并不需要严格按照语义错误修改吗,或者说是数据集中的噪声呢?

xlxwalex commented 1 year ago

这是因为实际上类型和修改策略是有相关性但并不是一定一致的(就像您提到的不需要严格按照语义错误修改),比如这句话中可以认为是“由于...使“这个结构造成了主语残缺,这时候一种改法是1:删除“使得”成为正确句子;同时也可以2:在“使得”前加一个新主语比如“这”、”“这种现象”。但是由于我们标注时在操作上要求标注员尽量在多样化的前提下秉持能减勿增(改动尽量少)的原则,因此在这样的平衡下第二种修改方案就可能会没有被包括在里面。

这部分我们在论文中https://arxiv.org/pdf/2210.12364.pdf 的Limitations部分的Limitations of FCGEC有提到,我们计划之后在未来工作中考虑更细化的把多种错误类型和修改方式对应起来

GioGioBond commented 1 year ago

在对json数据预处理成txt中,参数error_only默认为True,使得txt数据中不包含error_type信息,目前error_type的信息有在使用吗,还是在这个开源的版本中暂时没有体现

GioGioBond commented 1 year ago

在对json数据预处理成txt中,参数error_only默认为True,使得txt数据中不包含error_type信息,目前error_type的信息有在使用吗,还是在这个开源的版本中暂时没有体现

感谢您的回复,工作中对含有复合错误数据标注使用MOD+INS\DEL的方式很有意思,期待您的后续

xlxwalex commented 1 year ago

https://github.com/xlxwalex/FCGEC/blob/main/model/STG-correction/preprocess_data.py 的 err_only参数控制是否将正确样本加入数据集(代码中39行是用error_type来过滤掉正确样本,并不会去掉error_type字段)

另外开源版本中包含了利用error_type的模型代码,是STG-Indep+TTI(https://github.com/xlxwalex/FCGEC/blob/main/model/STG-correction/run_stg_tti.sh

xlxwalex commented 1 year ago

在对json数据预处理成txt中,参数error_only默认为True,使得txt数据中不包含error_type信息,目前error_type的信息有在使用吗,还是在这个开源的版本中暂时没有体现

感谢您的回复,工作中对含有复合错误数据标注使用MOD+INS\DEL的方式很有意思,期待您的后续

感谢您对我们工作的关注!