Open bringtree opened 5 years ago
波形图 -> 预加强 -> 分帧(由于人声音是非稳态,但是短时间内变化是稳态,与是在10ms内做,但是10ms这样做会导致丢失了变化趋势的特征,于是做窗口重合,由于窗口有重合 会导致做fft的时候有频谱泄露。) -> 加窗 (去掉两边重合部分的波) -> 快速傅里叶变化 ->对幅度取平方或者绝对值-> 取mel -> 取log(fbank) -> 取离散余弦变化->得到前13个包络点.(MFCC)
kaldi 的 add-delta add-delta-delta 等步骤 在 local/nnet3/run_ivector_common.sh 中
波形图 -> 预加强 -> 分帧(由于人声音是非稳态,但是短时间内变化是稳态,与是在10ms内做,但是10ms这样做会导致丢失了变化趋势的特征,于是做窗口重合,由于窗口有重合 会导致做fft的时候有频谱泄露。) -> 加窗 (去掉两边重合部分的波) -> 快速傅里叶变化 ->对幅度取平方或者绝对值-> 取mel -> 取log(fbank) -> 取离散余弦变化->得到前13个包络点.(MFCC)