shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,LLaMA等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.51k stars 1.09k forks source link

指定纠错 #499

Closed joseph16388 closed 3 months ago

joseph16388 commented 3 months ago

请问可以指定纠错的target和source的基本发音不要改变吗?举例:干净的胡面,只能改为干净的湖面,不要改为干净的画面。

shibing624 commented 3 months ago

1.训练集里面指定,只纠错音似错误就可以; 2.用自己改好的训练集,再训练一版模型。

joseph16388 commented 3 months ago

1.训练集里面指定,只纠错音似错误就可以; 2.用自己改好的训练集,再训练一版模型。

好的,3Q!进一步问一下,你说的指定就是只选取纠错音似的数据集吧? 比如下面这个: SIGHAN+Wang271K中文纠错数据集(27万条),是通过原始SIGHAN13、14、15年数据集和Wang271K数据集格式转化后得到,json格式,带错误字符位置信息,SIGHAN为test.json, macbert4csc模型训练可以直接用该数据集复现paper准召结果。