badcase - 标点符号错误误纠 & 拼写错误漏纠

songkq commented 11 months ago

@HillZhang1999 尝试了huggingface的几个模型，似乎都不能全部纠错成功。请问针对标点符号错误，有什么提升思路嘛？

pseudo_native_bart_CGEC_media/real_learner_bart_CGEC/real_learner_bart_CGEC_exam

input: 
"海峡两岸茶业交流协会会长陈绍军介绍：“正值三伏天，此时的茉莉花品质最好，鲜灵浓醇、淡雅幽香，它与茶的结合，造就了福州茉莉花茶‘冰糖甜”的独特品质，福州茉莉花茶还是诗一样的茶，它融茶之韵与花之香于一体，通过‘引花香，增茶味’使花香茶味珠联壁合，相得益彰。”"

output:
'海 峡 两 岸 茶 业 交 流 协 会 会 长 陈 绍 军 介 绍 ： “ 正 值 三 伏 天 ， 此 时 的 茉 莉 花 品 质 最 好 ， 鲜 灵 浓 醇 、 淡 雅 幽 香 ， 它 与 茶 的 结 合 ， 造 就 了 福 州 茉 莉 菊 茶 “ 冰 糖 甜 ” 的 独 特 品 质 ， 福 州 菊 花 茶 还 是 诗 一 样 的 茶 ， 它 融 茶 之 韵 与 花 之 香 于 一 体 ， 通 过 “ 引 花 香 ， 增 茶 味 ” 使 花 香 茶 味 珠 联 壁 合 ， 相 得 益 彰 。 ”'

错误说明：
原文：‘冰糖甜”
纠错结果：“ 冰 糖 甜 ”
正确结果：‘冰糖甜’

原文：珠联壁合
纠错结果：珠 联 壁 合
正确结果：珠联璧合

HillZhang1999 commented 11 months ago

这个仅仅是一个baseline，如果想要继续提升，建议使用数据增强或者真实数据等，对模型进行继续训练。比如用规则造一些标点符号错误，这个是比较好造的。

songkq commented 11 months ago

@HillZhang1999 感谢。中文标点符号使用规则还挺博大精深的，要做到规则不重不漏和数据多样化看起来还挺难的，基于规则构造数据有啥好使的开源实现工具推荐吗？另外业界对中文标点符号纠错比较好的SOTA模型有推荐吗？

HillZhang1999 commented 11 months ago

如果你需要”做到规则不重不漏和数据多样化“，可以试试用chatgpt蒸馏一批数据。 ”对中文标点符号纠错比较好的SOTA模型“，我感觉大家默认标点错误是比较简单的错误，不会特地去解决这个问题，微调下现有的主流模型应该都能解决得比较好。需要注意数据配比即可。

songkq commented 10 months ago

好的，多谢。

HillZhang1999 / NaSGEC

badcase - 标点符号错误误纠 & 拼写错误漏纠 #12