我自己的一个wav文件，识别结果没有输出，可能原因是什么？

yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架，同时兼容在线和离线识别，目前支持Conformer、Squeezeformer、DeepSpeech2模型，支持多种数据增强方法。

Apache License 2.0

597 stars 106 forks source link

我自己的一个wav文件，识别结果没有输出，可能原因是什么？ #13

Closed xiakj closed 3 years ago

xiakj commented 3 years ago

用自带的test.wav可以识别，但是我自己的一个wav文件不能识别，这是为什么？

yeyupiaoling commented 3 years ago

音频长度是多少，你自己录音的吗？采样率是多少？

xiakj commented 3 years ago

音频长度是多少，你自己录音的吗？采样率是多少？

文件传到网盘上去了，您看看链接：https://pan.baidu.com/s/1tdBlqPka6lxusTk_Ufbljw 提取码：1lpe

其中alarm.wav是原始的文件，其他的都是基于这个文件截取出来的谢谢！

xiakj commented 3 years ago

用wave读了一下，应该都是16000

xiakj commented 3 years ago

你的test.wav: _wave_params(nchannels=1, sampwidth=2, framerate=16000, nframes=134240, comptype='NONE', compname='not compressed')

f.close() 我的alarm.wav f=wave.open("dataset/alarm.wav") print(f.getparams()) _wave_params(nchannels=1, sampwidth=4, framerate=16000, nframes=425984, comptype='NONE', compname='not compressed') 发现是“sampwidth”这个参数不一样，我看看是不是这个问题影响的

yeyupiaoling commented 3 years ago

你有没有听过这个语音，我的听不出是个啥。你的音频不对啊、

xiakj commented 3 years ago

听了啊，是好的，alarm2.wav是“发现可疑情况，请及时处理”

xiakj commented 3 years ago

破案了，用ffmpeg将我的wav文件处理成 16000 Hz, 1 channels, s16, 256 kb/s 的格式就好了