yongxuUSTC / sednn

deep learning based speech enhancement using keras or pytorch, make it easy to use
http://staff.ustc.edu.cn/~jundu/The%20team/yongxu/demo/SE_DNN_taslp.html
334 stars 125 forks source link

关于data_prepare.py中的bug #43

Open Vanka0051 opened 5 years ago

Vanka0051 commented 5 years ago

函数calculate_mixture_features中,对于语音数据首先做了一个read_audio函数,如果speech和noise的fs不等于16000的话会对其进行重采样。但是后面的操作,如果len(noise_audio) >len(speech_audio)的情况下,noise_audio = noise_audio[noise_onset : noise_offset] 我现在遇到的情况是语音长度为63000,噪声n72.wav长度为80000,fs = 20000,将其重采样到16000后长度变成了64000,而后面修正长度的时候还是用了noise_onset:noise_offset。而noise_onset和noise_offset在取值的时候是在没有重采样的情况下取的,例如onset = 16221,offset = 79812。这样的话当noise被重采样以后就会导致speech和noise的长度不一样。。所以在生成csv的时候最好也给read_audio加入采样率的参数