数据集设置 - Githubissues

yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Apache License 2.0

807 stars 128 forks source link

Closed Zomun closed 2 years ago

Zomun commented 2 years ago

请问当数据集很小的时候，大概1000条音频，训练集和测试集该怎样设置呢

yeyupiaoling commented 2 years ago

用20%或者10%做测试集吧

Zomun commented 2 years ago

我的数据只有1小时，这种情况下测试集的数据还要保留在训练集中么，我用了很小的参数（batch 4， lr 5 e-5， epoch150， beamsearch）训练得到了CER为0.68（在训练集上运行的eval）的结果，这个时候只选了20条音频作为测试集，epoch到120的时候学习率就到0了

yeyupiaoling commented 2 years ago

我用的是学习率衰减，每一个epoch的学习率是原来的0.93，你训练越多学习率就越小。其实也不是0，只是后面太小，没有完全显示。如果你数据集太小，那就不用划分测试集了。