yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测。
https://yeyupiaoling.blog.csdn.net/article/details/102904306
Apache License 2.0
650 stars 143 forks source link

多个数据集分次训练 #80

Closed yuanweihong closed 2 years ago

yuanweihong commented 2 years ago

请教下作者,如果我用多个数据集分次训练,数据字典文件zh_vocab.txt和保存均值和标准值得numpy文件mean_std.npz需要合并吗?如果需要如何合并?谢谢!

yeyupiaoling commented 2 years ago

为啥分次训练呢?不能一起训练?

yeyupiaoling commented 2 years ago

多次训练的模型也不能混在一起用啊。

yuanweihong commented 2 years ago

数据不是一次采集过来的咋办,难道每次都要从头开始训练吗?

yeyupiaoling commented 2 years ago

也不是从头开始,可以在之前模型的基础上,只训练几轮就好。最重要的是之前的词汇表中已经包含了当前的字符。 https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/blob/6bc16e7a446fa612aa87562cd8d382bbe1d7239c/train.py#L23

yuanweihong commented 2 years ago

好的,多谢指导!