yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
572 stars 100 forks source link

语音文件是如何输入进网络的 #8

Closed lywhz closed 3 years ago

lywhz commented 3 years ago

请问:语音文件不应该先提取特征再输入进cnn网络吗?为什么我没有找到相关特征提取的代码?请大佬指正

yeyupiaoling commented 3 years ago

@lywhz 首先是把语音转换成短时傅立叶变换,可以看这段代码: https://github.com/yeyupiaoling/MASR/blob/dabbd84e8e828ca7f34ef79c81d7489fe3f706a5/utils/data.py#L27-L37

yeyupiaoling commented 3 years ago

没有疑问我就关闭issue了