yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
792 stars 131 forks source link

您好,在训练过程中遇到了一些问题 #109

Closed Jackylee06 closed 1 year ago

Jackylee06 commented 1 year ago
  1. 我的显卡有8g的显存,请问如果想训练deepspeech2_big模型的话,推荐的batch_size大概是多少(因为他每次都是最后几个batch才爆,我一下午已经爆了3次了😢)。此外,降低batch_size但是忘记降低学习率是否会导致占用更多显存
  2. 这个模型是必须训练完一轮才能保存吗,还是因为我更改了batch_size所以每次都要从头开始
  3. 请问现在支持中英文混合识别吗,比如中文和英文各占50%。如果不行的话,上数学课时那样偶尔有几个x、y以及单独的字母(如P点)等能否识别成英文
yeyupiaoling commented 1 year ago

我的显卡有8g的显存,请问如果想训练deepspeech2_big模型的话,推荐的batch_size大概是多少(因为他每次都是最后几个batch才爆,我一下午已经爆了3次了😢)。此外,降低batch_size但是忘记降低学习率是否会导致占用更多显存

可能要8,我的是11G,也要是16,学习率可以减少一点点,如果能够正常收敛,也可以不需要修改

这个模型是必须训练完一轮才能保存吗,还是因为我更改了batch_size所以每次都要从头开始

每10000个batch也会保存模型的。

请问现在支持中英文混合识别吗,比如中文和英文各占50%。如果不行的话,上数学课时那样偶尔有几个x、y以及单独的字母(如P点)等能否识别成英文

单独字母可以,英文单词就不行了。英文单词理论上训练可以,用贪心解码,但是这样准确率不高。

Jackylee06 commented 1 year ago

好的,谢谢解答。那我之前到了10000batch后中断,再开始时又从零开始应该是因为修改了batch_size🤔

Jackylee06 commented 1 year ago

还有一点问题,一是预训练模型在训练中起什么作用,二是学习率的数值对于训练过程及结果会有什么影响,您在 #102 中提到要按按batch_size缩小倍数减小,那我是不是应该改为0.0000125

yeyupiaoling commented 1 year ago

好的,谢谢解答。那我之前到了10000batch后中断,再开始时又从零开始应该是因为修改了batch_size🤔

不差这几个,从零开始的。

Jackylee06 commented 1 year ago

好的好的,麻烦您再看一眼后一条

yeyupiaoling commented 1 year ago

您在 https://github.com/yeyupiaoling/PPASR/issues/102 中提到要按按batch_size缩小倍数减小,那我是不是应该改为0.0000125

是的,但如果不出现梯度爆炸的情况,也可以不需要修改

前面两个是基本的深度学习知识,说起来挺复杂,你自己查资料。

Jackylee06 commented 1 year ago

好的👌谢谢