Closed dage0127 closed 2 years ago
这个数据集文件现在已经开源,可以在天池平台申请和下载:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328。 目前数据集需要参加评测比赛才可以获得。 或者你也可以自己从训练集采样一定比例的数据作为开发集,通过utils/preprocess.py文件转换成label格式作为开发集。
请问一下“MuCGEC_CGED_Dev.label”是下面哪一个文件:
你可以将MuCGEC_dev.txt转换成平行句对的格式,然后再通过https://github.com/HillZhang1999/MuCGEC/blob/main/models/seq2edit-based-CGEC/utils/preprocess_data.py 工具抽取成label文件。
明白了,多谢。
请教一下, 执行:sh pipeline.sh时,出现以下错误,MuCGEC_CGED_Dev.label文件从哪里可以获取?
FileNotFoundError: file ../../data/valid_data/MuCGEC_CGED_Dev.label not found