xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
108 stars 12 forks source link

数据转换 #7

Closed Candice52 closed 1 year ago

Candice52 commented 1 year ago

您好~我看论文中提到了通过最小编辑距离打标签,现在可以实现嘛?就是将平行句子转化为模型训练需要的含有标注的句子。

xlxwalex commented 1 year ago

您好, 附录中的算法是可以的,但是我们之前发现目前的版本在Switch标签上的转换对于标点的处理在一些Case上还有一些问题,所以没有放入仓库中,如果您不急的话可以稍微等几天(因为这几天有一点忙,预计一周内应该可以),我修改一下再发上来,到时候会在这里回复。如果您急的话也可以从主页README中找到我的邮箱,可以发一封邮件给我,我将目前的版本发给你,然后你自己修改一下。

Candice52 commented 1 year ago

您好~ 已发送邮件到您的邮箱并收到您的回复,同时期待您完整版本的数据转换代码~

xlxwalex commented 1 year ago

您好,

不好意思之前有点忙所以该脚本耽搁了一段时间,现在该脚本已提交至convert_seq2seq_to_operation.py,和之前发您邮箱的相比该版本在Modify操作下会和我们的标注一样会考虑到词组(搭配)的问题,您可以看一下!