多个数据集分次训练

yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别，中文语音识别。项目完善，识别效果好。支持Windows，Linux下训练和预测，支持Nvidia Jetson开发板预测。

Apache License 2.0

650 stars 143 forks source link

Closed yuanweihong closed 2 years ago

yuanweihong commented 2 years ago

请教下作者，如果我用多个数据集分次训练，数据字典文件zh_vocab.txt和保存均值和标准值得numpy文件mean_std.npz需要合并吗？如果需要如何合并？谢谢！

yeyupiaoling commented 2 years ago

为啥分次训练呢？不能一起训练？

yeyupiaoling commented 2 years ago

多次训练的模型也不能混在一起用啊。

yuanweihong commented 2 years ago

数据不是一次采集过来的咋办，难道每次都要从头开始训练吗？

yeyupiaoling commented 2 years ago

也不是从头开始，可以在之前模型的基础上，只训练几轮就好。最重要的是之前的词汇表中已经包含了当前的字符。 https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/blob/6bc16e7a446fa612aa87562cd8d382bbe1d7239c/train.py#L23

yuanweihong commented 2 years ago

好的，多谢指导！