Closed joseph16388 closed 3 months ago
1.训练集里面指定,只纠错音似错误就可以; 2.用自己改好的训练集,再训练一版模型。
1.训练集里面指定,只纠错音似错误就可以; 2.用自己改好的训练集,再训练一版模型。
好的,3Q!进一步问一下,你说的指定就是只选取纠错音似的数据集吧? 比如下面这个: SIGHAN+Wang271K中文纠错数据集(27万条),是通过原始SIGHAN13、14、15年数据集和Wang271K数据集格式转化后得到,json格式,带错误字符位置信息,SIGHAN为test.json, macbert4csc模型训练可以直接用该数据集复现paper准召结果。
请问可以指定纠错的target和source的基本发音不要改变吗?举例:干净的胡面,只能改为干净的湖面,不要改为干净的画面。