长期训练的话是每次将训练集合并训练还是将要新增训练的数据在原模型基础上训练呢

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

807 stars 128 forks source link

Closed a00147600 closed 2 years ago

a00147600 commented 2 years ago

因为训练集会存在不足。这种不足是基于词汇量的，比如一些新兴词汇或原训练集未涉猎的词汇，并非模型本身的问题。如果一并加入到原模型训练集的话，个人认为训练量过大了。如果在原模型的基础上训练的话，量会少一些。但不知是否会存在不如原模型的字错率的情况。

yeyupiaoling commented 2 years ago

如果只训练一两轮，字错率应该不会下降太多。当然最好就是放在原数据集上训练。