大佬我将我的双通道转化为单通道数据，识别出来基本全错。怎么回事

yeyupiaoling / PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别，中文语音识别。项目完善，识别效果好。支持Windows，Linux下训练和预测，支持Nvidia Jetson开发板预测。

Apache License 2.0

681 stars 145 forks source link

Closed Rateofteasing closed 3 years ago

Rateofteasing commented 3 years ago

我看代码只支持单通道，所以我转成单通道。转的命令是：ffmpeg -i original.wav -ac 1 -ar 16000 new.wav

yeyupiaoling commented 3 years ago

你不转换之后准确率怎么样？

Rateofteasing commented 3 years ago

不转换，会报错。你的断言设置的是必须单通道。

yeyupiaoling commented 3 years ago

不是，说错了，我想说，如果不使用长语音模式，识别准确率怎么样？首先得排除模型本身的问题

Rateofteasing commented 3 years ago

两种解码方法，试了一下都是偏离的很远，一个字没对。我是MP4视频转WAV，我听了一下应该是没问题的。感觉是不是需要特定的wav音频

yeyupiaoling commented 3 years ago

模型训练的数据还是比较少，泛化能力不够

Rateofteasing commented 3 years ago

大佬，我感觉Pipline效果是不是要比 end2end效果好。先保证音节对。我感觉end2end很多识别出来看了字的音节都不太对

yeyupiaoling commented 3 years ago

你说的Pipline我没试过，我都是做端到端的。我觉得数据量上来了，应该是没有问题的。

Rateofteasing commented 3 years ago

数量上来，得多大数据量。博主你训练了1300小时的。我感觉只能识别一些平常的

yeyupiaoling commented 3 years ago

这些数据还是远远不够。

Rateofteasing commented 3 years ago

我感觉先识别音节再音节转文字，要求的数据量不会这么大。毕竟音节数量相比汉字数量少很多

yeyupiaoling commented 3 years ago

那样工作量就多了。

Rateofteasing commented 3 years ago

大佬，我csdn留了我的qq，能和你学习学习吗？