shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.57k stars 1.1k forks source link

请问“的地得”纠错有什么好的方法 #480

Closed 1215thebqtic closed 7 months ago

1215thebqtic commented 8 months ago

想提高模型在“的地得”纠错上的效果,目前随机将正确的替换成另外一个“de”没什么效果。想用规则纠错,但是那些constituency_analysis、Dependency分析、POS分析在输入文本存在错误的“de”的使用情况时,那些词性都会分析错。所以不知道您有什么好的办法?谢谢!

shibing624 commented 8 months ago

特地造一些这种纠错数据集就可以改正,chatgpt造数据,macbert训练并预测。

1215thebqtic commented 8 months ago

特地造一些这种纠错数据集就可以改正,chatgpt造数据,macbert训练并预测。

谢谢!现在是用seq2seq的模型,能纠正大部分,但像有一些情况还是会弄混。 比如这种情况: 刚刚出道的明星通过各种渠道不断刷脸,提高在众多明星中的知名度。

当一个词又能做动词又能做名词的时候,“的“和”地”就会用混,像这个加粗的,就会纠错成

这种情况是不是多加一些这样类型的数据就能解决?就是在增强时,做一些词性分析之类的? 因为我之前在我们的语料里随机的替换“的”、“地”、“得”,混上一些我们的标注数据,相比单纯用标注数据训练的模型而言,混合增强的数据的模型并没有变好,我不知道是模型的原因还是数据的原因...

shibing624 commented 8 months ago

1.高质量的数据是有帮助的,可以扩增这类数据; 2.模型可以尝试更复杂一些的,如gpt corrector,gpt训练可以加入cot,指出此处错误原因,为啥修改,可以提升推理效果。