Closed LY637 closed 8 months ago
Please provide a clear and concise description of what the question is. 老师您好!我想请教一下bart为基础的模型能做不等长语句的矫正(cgec)吗。个人的理解是bart预训练是做抗噪的,这个过程其实就挺像文本纠错的,并且也涉及到了输入输出不等长的情况。选用bart做为预训练模型来微调纠错,感觉效果应该会不错。但是pycorrector里面的bart纠错模型似乎是针对输入输出等长情况下的纠错(拼写错误)。总结一下两个问题
1.bart能做这种输入输出不等长的矫正吗(个人感觉可以,它是自回归的) 2.训练数据需要和示例数据完全一致吗?(目前我处理得到一个类似于nlpcc2018+hsk只有原句和目标语句的数据集,但是没有错误的位置。还需要继续处理吗?有单纯在这种数据集上进行训练的任务吗?它的评估指标是什么呢)
希望能得到老师的回答,谢谢!
1.可以 2.不需要,t5、bart、chatglm类模型不需要错误位置,macbert4csc需要位置。
Describe the Question
Please provide a clear and concise description of what the question is. 老师您好!我想请教一下bart为基础的模型能做不等长语句的矫正(cgec)吗。个人的理解是bart预训练是做抗噪的,这个过程其实就挺像文本纠错的,并且也涉及到了输入输出不等长的情况。选用bart做为预训练模型来微调纠错,感觉效果应该会不错。但是pycorrector里面的bart纠错模型似乎是针对输入输出等长情况下的纠错(拼写错误)。总结一下两个问题
1.bart能做这种输入输出不等长的矫正吗(个人感觉可以,它是自回归的) 2.训练数据需要和示例数据完全一致吗?(目前我处理得到一个类似于nlpcc2018+hsk只有原句和目标语句的数据集,但是没有错误的位置。还需要继续处理吗?有单纯在这种数据集上进行训练的任务吗?它的评估指标是什么呢)
希望能得到老师的回答,谢谢!