yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
807 stars 128 forks source link

数据集设置 #64

Closed Zomun closed 2 years ago

Zomun commented 2 years ago

请问当数据集很小的时候,大概1000条音频,训练集和测试集该怎样设置呢

yeyupiaoling commented 2 years ago

用20%或者10%做测试集吧

Zomun commented 2 years ago

我的数据只有1小时,这种情况下测试集的数据还要保留在训练集中么,我用了很小的参数(batch 4, lr 5 e-5, epoch150, beamsearch)训练得到了CER为0.68(在训练集上运行的eval)的结果,这个时候只选了20条音频作为测试集,epoch到120的时候学习率就到0了

yeyupiaoling commented 2 years ago

我用的是学习率衰减,每一个epoch的学习率是原来的0.93,你训练越多学习率就越小。 其实也不是0,只是后面太小,没有完全显示。 如果你数据集太小,那就不用划分测试集了。