bart纠错模型训练问题

EASTERNTIGER commented 1 year ago

老师您好，我在尝试您提供的training_bartseq2seq_zh_demo.py训练模型时发现，获取的best_model模型出现语句误纠后，我将'正确句'+‘\t’+'正确句'的数据继续加入模型进行训练，发现有的数据误纠得到改善，但是有的数据依然会出现同样的误纠，加入误纠数据训练完全没有效果，请问这个问题怎么解决呢？例如：把‘干部’误纠为‘老干部’，我加了多句包含‘干部’的防误纠数据训练后，依然会把‘干部’误纠为‘老干部’ 原句：‘目前，按照组织要求，事业干部一般不能担任行政的科室长及副局长，对于事业干部做事的积极性也存在较大影响’————误纠为————‘目前，按照组织要求，事业干部一般不能担任行政的科室长及副局长，对于事业老干部做事的积极性也存在较大影响’

而，原句：‘让我们用阅读来沁润每一颗童心、让阅读来伴随你我成长’原本误纠为‘让我们用阅读来沁润每一颗童心、让阅读带来伴随你我成长’，在加入‘让我们用阅读来沁润每一颗童心、让阅读来伴随你我成长’+‘\t’+‘让我们用阅读来沁润每一颗童心、让阅读来伴随你我成长’以后，误纠消失

请问为什么模型会出现这种不稳定的情况

shibing624 commented 1 year ago

深度模型训练本不稳定的，多加点数据看看吧，针对单个case去解决意义不大。如果想稳定纠错，上规则试试。

EASTERNTIGER commented 1 year ago

深度模型训练本不稳定的，多加点数据看看吧，针对单个case去解决意义不大。如果想稳定纠错，上规则试试。

好的，谢谢。

shibing624 / textgen

bart纠错模型训练问题 #49