Closed joewale closed 1 year ago
可以描述一下么? fbank 输出做 normalization 是什么意思?
我设置各个参数后,fbank的输出如下:
是否有参数支持输出归一化后的结果,如下面这样的结果:
你下面的结果是怎么算出来的?什么才叫归一化?
上面两个图没有对应关系哈,下面这个图是通过torchaudio.compliance.kaldi.fbank输出的
你给的是同一段音频吗?
你的输入都是做过 normalization的么?即是在 [-1, 1] 还是 [-32768, 32767] 之间?
给的是同一段语音,kaldi-feat对输入没有归一化(直接读取的pcm数据,没做[-1, 1]归一化),结果是上面的第一张图;当我用librosa.load读取音频后,输入kaldi-feat,结果出现下面的结果
librosa.load读取音频后是有做除以32767的归一化处理,我现在做了归一化得到的结果跟librosa.load读取音频后做kaldi-feat的结果一致。
那现在问题是不是解决了? 只要对输入做归一化,对么?
那现在问题是不是解决了? 只要对输入做归一化,对么?
嗯。谢谢哈!
另外,再请教个问题,kaldi-feat的fbank的输出维度问题:以下的配置,4s的音频输入,输出的维度不是128x400,而是128x398, 需要设置哪个参数吗?
opts = kaldifeat.FbankOptions() opts.frame_opts.dither = 0 opts.frame_opts.window_type = "hanning" opts.mel_opts.num_bins = 128 opts.frame_opts.frame_shift_ms = 10 opts.frame_opts.frame_length_ms = 25 opts.frame_opts.samp_freq = 32000 opts.use_log_fbank = True
输出的维度不是128400,而是128398
128400 是哪里来的?
不是二维的吗? 你可以详细描述一下你要做什么吗?
输出的维度不是128400,而是128398
128400 是哪里来的?
不是二维的吗? 你可以详细描述一下你要做什么吗?
是二维的,刚才打印显示有问题,已更新
我其实在验证kaldi-feat的fbank跟torchaudio.compliance.kaldi.fbank输出结果的一致性
有个 snip edges 的参数,你改一下,看行不行.
你现在是在和谁对比?你就用一模一样的参数。
我其实在验证kaldi-feat的fbank跟torchaudio.compliance.kaldi.fbank输出结果的一致性
这个我已经验证过了.你确保所有的参数是一样的就行.
记住,关掉 dither
嗯,snip_edges设置为false解决了,谢谢哈
这个看起来对线上推理的部署更友好,我试下,非常感谢!
可以关掉了?
问题已解决,感谢
RT