Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.
MIT License
217 stars 37 forks source link

48k_training #12

Open FisherDom opened 7 months ago

FisherDom commented 7 months ago

你好!多谢你的工作及开源!如果我想使用48k采样率,需要对模型代码进行修改吗,还是只需要改变输入数据即可。 祝您工作顺利!

Xiaobin-Rong commented 7 months ago

你好!转换到48k是需要修改模型的。对于48k数据,如果STFT沿用32ms帧长的设置,频率维度将会是769个点而不是257个点。需要考虑以下几个改动:

  1. 在频谱压缩BM模块,对多少kHz以下的频带不压缩?
  2. 输入的频谱通过Encoder之后,频率维度是多少?要相应地调整Bottleneck的G-DPRNN的参数;

可能还存在其它我没考虑到的修改,祝你工作顺利!

AlanCc1994 commented 1 month ago

我尝试采用512点STFT,也就是帧长为10.6ms,频带3k以下不压缩,3k以上erb压缩频带,但是出现语音被消掉的情况,请问有什么需要注意的细节吗?

Xiaobin-Rong commented 1 month ago

我尝试采用512点STFT,也就是帧长为10.6ms,频带3k以下不压缩,3k以上erb压缩频带,但是出现语音被消掉的情况,请问有什么需要注意的细节吗?

可能是512点STFT太短了,一般至少使用20ms以上的帧长。ERB压缩可能放到4k会好一点

AlanCc1994 commented 1 month ago

还有我发现训练集的合成方式不同,对模型泛化的影响非常大,您可以分享一下训练集的合成方法吗?

Xiaobin-Rong commented 1 month ago

数据集合成的方式在paper里面讲的比较清楚了,没有什么特别的地方。