Open FisherDom opened 7 months ago
你好!转换到48k是需要修改模型的。对于48k数据,如果STFT沿用32ms帧长的设置,频率维度将会是769个点而不是257个点。需要考虑以下几个改动:
可能还存在其它我没考虑到的修改,祝你工作顺利!
我尝试采用512点STFT,也就是帧长为10.6ms,频带3k以下不压缩,3k以上erb压缩频带,但是出现语音被消掉的情况,请问有什么需要注意的细节吗?
我尝试采用512点STFT,也就是帧长为10.6ms,频带3k以下不压缩,3k以上erb压缩频带,但是出现语音被消掉的情况,请问有什么需要注意的细节吗?
可能是512点STFT太短了,一般至少使用20ms以上的帧长。ERB压缩可能放到4k会好一点
还有我发现训练集的合成方式不同,对模型泛化的影响非常大,您可以分享一下训练集的合成方法吗?
数据集合成的方式在paper里面讲的比较清楚了,没有什么特别的地方。
你好!多谢你的工作及开源!如果我想使用48k采样率,需要对模型代码进行修改吗,还是只需要改变输入数据即可。 祝您工作顺利!