48k_training - Githubissues

Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.

MIT License

217 stars 37 forks source link

Open FisherDom opened 7 months ago

FisherDom commented 7 months ago

你好！多谢你的工作及开源！如果我想使用48k采样率，需要对模型代码进行修改吗，还是只需要改变输入数据即可。祝您工作顺利！

Xiaobin-Rong commented 7 months ago

你好！转换到48k是需要修改模型的。对于48k数据，如果STFT沿用32ms帧长的设置，频率维度将会是769个点而不是257个点。需要考虑以下几个改动：

可能还存在其它我没考虑到的修改，祝你工作顺利！

AlanCc1994 commented 1 month ago

我尝试采用512点STFT，也就是帧长为10.6ms，频带3k以下不压缩，3k以上erb压缩频带，但是出现语音被消掉的情况，请问有什么需要注意的细节吗？

Xiaobin-Rong commented 1 month ago

我尝试采用512点STFT，也就是帧长为10.6ms，频带3k以下不压缩，3k以上erb压缩频带，但是出现语音被消掉的情况，请问有什么需要注意的细节吗？

可能是512点STFT太短了，一般至少使用20ms以上的帧长。ERB压缩可能放到4k会好一点

AlanCc1994 commented 1 month ago

还有我发现训练集的合成方式不同，对模型泛化的影响非常大，您可以分享一下训练集的合成方法吗？

Xiaobin-Rong commented 1 month ago

数据集合成的方式在paper里面讲的比较清楚了，没有什么特别的地方。