HillZhang1999 / MuCGEC

MuCGEC中文纠错数据集及文本纠错SOTA模型开源;Code & Data for our NAACL 2022 Paper "MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction"
https://aclanthology.org/2022.naacl-main.227/
Apache License 2.0
510 stars 64 forks source link

MuCGEC_CGED_Dev.label文件不存在 #9

Closed dage0127 closed 2 years ago

dage0127 commented 2 years ago

请教一下, 执行:sh pipeline.sh时,出现以下错误,MuCGEC_CGED_Dev.label文件从哪里可以获取?

FileNotFoundError: file ../../data/valid_data/MuCGEC_CGED_Dev.label not found

HillZhang1999 commented 2 years ago

这个数据集文件现在已经开源,可以在天池平台申请和下载:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328。 目前数据集需要参加评测比赛才可以获得。 或者你也可以自己从训练集采样一定比例的数据作为开发集,通过utils/preprocess.py文件转换成label格式作为开发集。

dage0127 commented 2 years ago

请问一下“MuCGEC_CGED_Dev.label”是下面哪一个文件: image

HillZhang1999 commented 2 years ago

你可以将MuCGEC_dev.txt转换成平行句对的格式,然后再通过https://github.com/HillZhang1999/MuCGEC/blob/main/models/seq2edit-based-CGEC/utils/preprocess_data.py 工具抽取成label文件。

dage0127 commented 2 years ago

明白了,多谢。