yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测。
https://yeyupiaoling.blog.csdn.net/article/details/102904306
Apache License 2.0
649 stars 143 forks source link

中英文混合语音识别 #154

Closed mufenglalala closed 1 year ago

mufenglalala commented 1 year ago

大大我看您在数据准备那里说,数据集里面只能是纯中文:“每一行数据包含该语音文件的相对路径和该语音文件对应的中文文本,要注意的是该中文文本只能包含纯中文,不能包含标点符号、阿拉伯数字以及英文字母”。想问问这个模型可以训练中英文混合的数据集吗?不能的话有推荐的混合语言语音识别的开源模型吗?辛苦大大,感激不尽

yeyupiaoling commented 1 year ago

有英文字母也是可以的。但是单词就不行了。

yeyupiaoling commented 1 year ago

另外建议你用PPASR

yeyupiaoling commented 1 year ago

你要了解使用预训练模型训练和微调。 如果你使用预训练模型重新训练的话。那模型肯定会偏向你的数据集。 没有什么追加训练可说。