Open Xiaobin-Rong opened 2 months ago
另外,请问您是否测试过该模型在 Voicebank-Demand 数据集上的性能?是否能和原文的2.97 PESQ对得上?
1、还没有测试,模型参数量不一致是DPE模块我改动了,我用分组了RNN,我初始版本的实现中,输入(batch, frames, input_size), inputs_size划分为groups块,而hidden_size不做划分,而提交版本,hidden_size也划分groups块;那么,RNN中的hidden_size就减少了groups倍,参数量自然就减少了。模型肯定不会很快,里面用来u-net,分块,RNN,这些都会减慢速度。 2、原文的参数没有给完全,还有一些参数是错的,例如,幅度谱,原文输入通道是2,而幅度谱通道应该是1,还有full-band encoder 的stride参数也错了。 3、文章虽然参数量小,但是,这种结构等于用来两个u-net,性能的提升是靠牺牲内存/显存换来的。
@gitwukeyi 感谢您的回复,期待您的测试结果!
您好,请问您复现出论文给的pesq=2.97的结果了吗?
非常感谢您对 FSPEN 的实现! 但我运行代码发现一些问题:
期待您的回复!