shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

bart_chinese_base能做原句与正确语句不等长(语法纠错cgec)的矫正吗? #456

Closed LY637 closed 8 months ago

LY637 commented 11 months ago

Describe the Question

Please provide a clear and concise description of what the question is. 老师您好!我想请教一下bart为基础的模型能做不等长语句的矫正(cgec)吗。个人的理解是bart预训练是做抗噪的,这个过程其实就挺像文本纠错的,并且也涉及到了输入输出不等长的情况。选用bart做为预训练模型来微调纠错,感觉效果应该会不错。但是pycorrector里面的bart纠错模型似乎是针对输入输出等长情况下的纠错(拼写错误)。总结一下两个问题

1.bart能做这种输入输出不等长的矫正吗(个人感觉可以,它是自回归的) 2.训练数据需要和示例数据完全一致吗?(目前我处理得到一个类似于nlpcc2018+hsk只有原句和目标语句的数据集,但是没有错误的位置。还需要继续处理吗?有单纯在这种数据集上进行训练的任务吗?它的评估指标是什么呢)

希望能得到老师的回答,谢谢!

shibing624 commented 11 months ago

1.可以 2.不需要,t5、bart、chatglm类模型不需要错误位置,macbert4csc需要位置。