Closed songkq closed 10 months ago
这个仅仅是一个baseline,如果想要继续提升,建议使用数据增强或者真实数据等,对模型进行继续训练。比如用规则造一些标点符号错误,这个是比较好造的。
@HillZhang1999 感谢。中文标点符号使用规则还挺博大精深的,要做到规则不重不漏和数据多样化看起来还挺难的,基于规则构造数据有啥好使的开源实现工具推荐吗?另外业界对中文标点符号纠错比较好的SOTA模型有推荐吗?
如果你需要”做到规则不重不漏和数据多样化“,可以试试用chatgpt蒸馏一批数据。 ”对中文标点符号纠错比较好的SOTA模型“,我感觉大家默认标点错误是比较简单的错误,不会特地去解决这个问题,微调下现有的主流模型应该都能解决得比较好。需要注意数据配比即可。
好的,多谢。
@HillZhang1999 尝试了huggingface的几个模型,似乎都不能全部纠错成功。请问针对标点符号错误,有什么提升思路嘛?