HillZhang1999 / NaSGEC

Code & Data for our Paper "NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts" (ACL 2023 Findings)
https://arxiv.org/abs/2305.16023
75 stars 6 forks source link

badcase - 标点符号错误误纠 & 拼写错误漏纠 #12

Closed songkq closed 10 months ago

songkq commented 11 months ago

@HillZhang1999 尝试了huggingface的几个模型,似乎都不能全部纠错成功。请问针对标点符号错误,有什么提升思路嘛?

pseudo_native_bart_CGEC_media/real_learner_bart_CGEC/real_learner_bart_CGEC_exam

input: 
"海峡两岸茶业交流协会会长陈绍军介绍:“正值三伏天,此时的茉莉花品质最好,鲜灵浓醇、淡雅幽香,它与茶的结合,造就了福州茉莉花茶‘冰糖甜”的独特品质,福州茉莉花茶还是诗一样的茶,它融茶之韵与花之香于一体,通过‘引花香,增茶味’使花香茶味珠联壁合,相得益彰。”"

output:
'海 峡 两 岸 茶 业 交 流 协 会 会 长 陈 绍 军 介 绍 : “ 正 值 三 伏 天 , 此 时 的 茉 莉 花 品 质 最 好 , 鲜 灵 浓 醇 、 淡 雅 幽 香 , 它 与 茶 的 结 合 , 造 就 了 福 州 茉 莉 菊 茶 “ 冰 糖 甜 ” 的 独 特 品 质 , 福 州 菊 花 茶 还 是 诗 一 样 的 茶 , 它 融 茶 之 韵 与 花 之 香 于 一 体 , 通 过 “ 引 花 香 , 增 茶 味 ” 使 花 香 茶 味 珠 联 壁 合 , 相 得 益 彰 。 ”'

错误说明:
原文:‘冰糖甜”
纠错结果:“ 冰 糖 甜 ”
正确结果:‘冰糖甜’

原文:珠联壁合
纠错结果:珠 联 壁 合
正确结果:珠联璧合
HillZhang1999 commented 11 months ago

这个仅仅是一个baseline,如果想要继续提升,建议使用数据增强或者真实数据等,对模型进行继续训练。比如用规则造一些标点符号错误,这个是比较好造的。

songkq commented 11 months ago

@HillZhang1999 感谢。中文标点符号使用规则还挺博大精深的,要做到规则不重不漏和数据多样化看起来还挺难的,基于规则构造数据有啥好使的开源实现工具推荐吗?另外业界对中文标点符号纠错比较好的SOTA模型有推荐吗?

HillZhang1999 commented 11 months ago

如果你需要”做到规则不重不漏和数据多样化“,可以试试用chatgpt蒸馏一批数据。 ”对中文标点符号纠错比较好的SOTA模型“,我感觉大家默认标点错误是比较简单的错误,不会特地去解决这个问题,微调下现有的主流模型应该都能解决得比较好。需要注意数据配比即可。

songkq commented 10 months ago

好的,多谢。