yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
597 stars 106 forks source link

我自己的一个wav文件,识别结果没有输出,可能原因是什么? #13

Closed xiakj closed 3 years ago

xiakj commented 3 years ago

用自带的test.wav可以识别,但是我自己的一个wav文件不能识别,这是为什么?

yeyupiaoling commented 3 years ago

音频长度是多少,你自己录音的吗?采样率是多少?

xiakj commented 3 years ago

音频长度是多少,你自己录音的吗?采样率是多少?

文件传到网盘上去了,您看看 链接:https://pan.baidu.com/s/1tdBlqPka6lxusTk_Ufbljw 提取码:1lpe

其中alarm.wav是原始的文件,其他的都是基于这个文件截取出来的 谢谢!

xiakj commented 3 years ago

用wave读了一下,应该都是16000

xiakj commented 3 years ago

你的test.wav: _wave_params(nchannels=1, sampwidth=2, framerate=16000, nframes=134240, comptype='NONE', compname='not compressed')

f.close() 我的alarm.wav f=wave.open("dataset/alarm.wav") print(f.getparams()) _wave_params(nchannels=1, sampwidth=4, framerate=16000, nframes=425984, comptype='NONE', compname='not compressed') 发现是“sampwidth”这个参数不一样,我看看是不是这个问题影响的

yeyupiaoling commented 3 years ago

你有没有听过这个语音,我的听不出是个啥。你的音频不对啊、

xiakj commented 3 years ago

听了啊,是好的,alarm2.wav是“发现可疑情况,请及时处理”

xiakj commented 3 years ago

破案了,用ffmpeg将我的wav文件处理成 16000 Hz, 1 channels, s16, 256 kb/s 的格式就好了