Closed a00147600 closed 2 years ago
因为训练集会存在不足。这种不足是基于词汇量的,比如一些新兴词汇或原训练集未涉猎的词汇,并非模型本身的问题。 如果一并加入到原模型训练集的话,个人认为训练量过大了。如果在原模型的基础上训练的话,量会少一些。但不知是否会存在不如原模型的字错率的情况。
如果只训练一两轮,字错率应该不会下降太多。 当然最好就是放在原数据集上训练。
因为训练集会存在不足。这种不足是基于词汇量的,比如一些新兴词汇或原训练集未涉猎的词汇,并非模型本身的问题。 如果一并加入到原模型训练集的话,个人认为训练量过大了。如果在原模型的基础上训练的话,量会少一些。但不知是否会存在不如原模型的字错率的情况。