zzw922cn / Automatic_Speech_Recognition

End-to-end Automatic Speech Recognition for Madarian and English in Tensorflow
MIT License
2.84k stars 538 forks source link

I have a problem with the mfcc #48

Open Ostnie opened 6 years ago

Ostnie commented 6 years ago

今天偶然发现,在您的程序中完成特征提取之后的npy文件里面的数据不是391,而是39n(根据不同的语音n取值不一样,有292,370等),我之前一直以为您的预处理程序处理完语料产生的就是一个长度为39的特征向量,之前接触的其他的语音识别特征提取都是一个39维的特征向量,为什么您特征提取完的矩阵这么大?后面是否有将他转化为长度为39的特征向量的操作?我并没有在您的程序中找到,望能指教,非常感谢

zzw922cn commented 6 years ago

hi, it is because that a 39 vector is feature of a time window, an audio is composed of many time windows, so the geature should be a matrix, first dimension is number of time windows, second dimension is feature vector.

2017年11月19日 下午9:16,"Ostnie" notifications@github.com写道:

今天偶然发现,在您的程序中完成特征提取之后的npy文件里面的数据不是391,而是39n(根据不同的语音n取值不一样,有292,370等), 我之前一直以为您的预处理程序处理完语料产生的就是一个长度为39的特征向量,之前接触的其他的语音识别特征提取都是一个39维的特征向量, 为什么您特征提取完的矩阵这么大?后面是否有将他转化为长度为39的特征向量的操作?我并没有在您的程序中找到,望能指教,非常感谢

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/zzw922cn/Automatic_Speech_Recognition/issues/48, or mute the thread https://github.com/notifications/unsubscribe-auth/ALHDkyqfy2WMKWz2QKAA5QkhNAuE_nDyks5s4CoggaJpZM4QjYCY .

Ostnie commented 6 years ago

噢,那意思是说我之前对特征向量的理解一直有错误,不是一整段语音对应一个特征向量,而是每一个窗口截下来的语音数据就是一个长度为39的特征向量,这就是说在后面的处理时这整个39n的矩阵才代表这段语音的完整特征向量,不需要转化为139的形式?我的理解对吗?

zzw922cn commented 6 years ago

是的,特征矩阵大小就是windows*39。

2017年11月19日 下午9:31,"Ostnie" notifications@github.com写道:

噢,那意思是说我之前对特征向量的理解一直有错误,不是一整段语音对应一个特征向量,而是每一个窗口截下来的语音数据就是一个长度为39的特征向量, 这就是说在后面的处理时这整个39n的矩阵才代表这段语音的完整特征向量,不需要转化为139的形式?我的理解对吗?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/zzw922cn/Automatic_Speech_Recognition/issues/48#issuecomment-345517127, or mute the thread https://github.com/notifications/unsubscribe-auth/ALHDk7RnxtNfsFpB1ZJloCNa0V3ZarhFks5s4C2WgaJpZM4QjYCY .

GreatJiweix commented 6 years ago

我不知道如何提取mfcc特征,生成程序需要的mfcc和label文件,能不能提供一个提取特征后的数据集的下载地址或者指导一下到底如何提取特征啊

GreatJiweix commented 6 years ago

非常感谢

flassTer commented 5 years ago

Can someone explain how to extract the mfcc and labels from the TIMIT dataset? Thank you.