gitwukeyi / FSPEN

33 stars 8 forks source link

模型的参数量和计算量和原文没有对上? #1

Open Xiaobin-Rong opened 2 months ago

Xiaobin-Rong commented 2 months ago

非常感谢您对 FSPEN 的实现! 但我运行代码发现一些问题:

  1. 您所实现的模型参数量35k,计算量77 MMACs/s,而原文参数量79k,计算量89 MMACs/s。请问您的所有参数配置是否已与原文保持一致?
  2. 我发现模型训练起来速度并不是非常快,这可能与大量RNN串行处理有关。请问您是否测过该模型流式版本的实时率?

期待您的回复!

Xiaobin-Rong commented 2 months ago

另外,请问您是否测试过该模型在 Voicebank-Demand 数据集上的性能?是否能和原文的2.97 PESQ对得上?

gitwukeyi commented 2 months ago

1、还没有测试,模型参数量不一致是DPE模块我改动了,我用分组了RNN,我初始版本的实现中,输入(batch, frames, input_size), inputs_size划分为groups块,而hidden_size不做划分,而提交版本,hidden_size也划分groups块;那么,RNN中的hidden_size就减少了groups倍,参数量自然就减少了。模型肯定不会很快,里面用来u-net,分块,RNN,这些都会减慢速度。 2、原文的参数没有给完全,还有一些参数是错的,例如,幅度谱,原文输入通道是2,而幅度谱通道应该是1,还有full-band encoder 的stride参数也错了。 3、文章虽然参数量小,但是,这种结构等于用来两个u-net,性能的提升是靠牺牲内存/显存换来的。

Xiaobin-Rong commented 2 months ago

@gitwukeyi 感谢您的回复,期待您的测试结果!

wanghao0225 commented 2 months ago

您好,请问您复现出论文给的pesq=2.97的结果了吗?