yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
807 stars 128 forks source link

长期训练的话 是每次将训练集合并训练 还是将要新增训练的数据在原模型基础上训练呢 #103

Closed a00147600 closed 2 years ago

a00147600 commented 2 years ago

因为训练集会存在不足。这种不足是基于词汇量的,比如一些新兴词汇或原训练集未涉猎的词汇,并非模型本身的问题。 如果一并加入到原模型训练集的话,个人认为训练量过大了。如果在原模型的基础上训练的话,量会少一些。但不知是否会存在不如原模型的字错率的情况。

yeyupiaoling commented 2 years ago

如果只训练一两轮,字错率应该不会下降太多。 当然最好就是放在原数据集上训练。