xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
108 stars 12 forks source link

数据转换成平行句对 #5

Closed nghuyong closed 1 year ago

nghuyong commented 1 year ago

如何将提供的数据集转换成平行句对: (错误句子,修正后句子) 尝试进行解析,发现还挺麻烦,存在一些不一致。比如:Insert的label为一个list,也可能为一个str

image image

希望能提供一下转换脚本,或者直接转换好的数据,非常感谢

xlxwalex commented 1 year ago

您好, 我们在昨天上传了转换数据为Seq2Seq格式的脚本,您可以参考使用convert_fcgec_to_seq2seq.py,重新Clone后进入scripts文件夹直接python convert_fcgec_to_seq2seq.py即可

nghuyong commented 1 year ago

嗯,看到了更新的readme,感谢!!

xlxwalex commented 1 year ago

不客气!