yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测。
https://yeyupiaoling.blog.csdn.net/article/details/102904306
Apache License 2.0
681 stars 145 forks source link

大佬我将我的双通道转化为单通道数据,识别出来基本全错。怎么回事 #69

Closed Rateofteasing closed 3 years ago

Rateofteasing commented 3 years ago

image 我看代码只支持单通道,所以我转成单通道。 转的命令是:ffmpeg -i original.wav -ac 1 -ar 16000 new.wav

yeyupiaoling commented 3 years ago

你不转换之后准确率怎么样?

Rateofteasing commented 3 years ago

不转换,会报错。你的断言设置的是必须 单通道。

yeyupiaoling commented 3 years ago

不是,说错了,我想说,如果不使用长语音模式,识别准确率怎么样?首先得排除模型本身的问题

Rateofteasing commented 3 years ago

两种解码方法,试了一下都是偏离的很远,一个字没对。我是MP4视频转WAV,我听了一下应该是没问题的。感觉是不是需要特定的wav音频

yeyupiaoling commented 3 years ago

模型训练的数据还是比较少,泛化能力不够

Rateofteasing commented 3 years ago

大佬,我感觉Pipline效果是不是要比 end2end效果好。先保证音节对。我感觉end2end很多识别出来 看了字的音节都不太对

yeyupiaoling commented 3 years ago

你说的Pipline我没试过,我都是做端到端的。我觉得数据量上来了,应该是没有问题的。

Rateofteasing commented 3 years ago

数量上来,得多大数据量。博主你训练了1300小时的。我感觉只能识别一些平常的

yeyupiaoling commented 3 years ago

这些数据还是远远不够。

Rateofteasing commented 3 years ago

我感觉先识别音节 再音节转文字,要求的数据量不会这么大。毕竟音节数量相比 汉字数量少很多

yeyupiaoling commented 3 years ago

那样工作量就多了。

Rateofteasing commented 3 years ago

大佬,我csdn留了我的qq,能和你学习学习吗?