xlxwalex / FCGEC

The Corpus & Code for EMNLP 2022 paper "FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction" | FCGEC中文语法纠错语料及STG模型
https://aclanthology.org/2022.findings-emnlp.137
Apache License 2.0
104 stars 12 forks source link

将错误句子中带空格的数据,转STG模型的训练格式,训练代码报错 #43

Closed TLL1213 closed 1 month ago

TLL1213 commented 1 month ago

错误句子中带有空格的句子,使用 Seq2Operate提供的 convert_seq2seq_to_operation.py中的min_dist_opt函数生成STG的训练数据集,在生成JointDataset时候会报索引错误。例如: (1)“神马都是浮云”、“鸭梨”、“围脖”、“非常艰难的决定”、 “至于你信不信”、“hold住”等网络词语一夜窜红的主要原因是一部分网民在背后推波助澜所造成的。 (2)今年春节期间,这个市的210辆消防车,3000多名消防官兵,放弃休假,始终坚守在各 自执勤的岗位上。 (3)大学毕业生的毕业选择对其父母及家庭情况会有一定影响,父母的 “职业等级”高,毕业生往往会选择继续学习而不急于就业。

等FCGEC训练集中的错误句子,若重写一个正确句子,使用min_dist_opt生成的label无法正常训练,报索引错误。可以请问一下作者,这有什么较快的解决方法吗,谢谢!

xlxwalex commented 1 month ago

你好,

是的,带空格的句子主要是因为我们的PointConverter Module在尝试对齐的时候会因为空格造成没法对齐的问题,这类问题的话一种可行的方案是:可以把空格位置检测出来,然后对编辑操作进行后处理(根据空格数量移动编辑操作索引值)来修复。你可以试试看。

如果有问题,欢迎回复!

TLL1213 commented 1 month ago

好的,感谢您迅速的答疑。

xlxwalex commented 1 month ago

客气啦:)