JusperLee / Dual-Path-RNN-Pytorch

Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation implemented by Pytorch
Apache License 2.0
417 stars 65 forks source link

dprnn在reverberation下的性能 #33

Closed SouppuoS closed 2 years ago

SouppuoS commented 2 years ago

你好,我想请教一下dprnn在混响场景下的性能问题

我尝试使用自己合成的数据集(fs=8k,rt60=0.7s,训练使用长4s的片段)进行训练(单通道,以干净混响信号为目标,lr=1e-3) 但在训练过程中发现,相比无混响数据的训练过程,sisdr上升极慢,并且最高似乎只有约0.6dB,从分离信号时频图看两路输出也没有明显的区别。

按luo的论文看,Noise-free reverberant speech场景下WER能达到9.1% 我不清楚这是否是我的数据集存在问题,还是训练过程中有什么与无混响场景不同的设置被我遗漏导致的训练困难,望能指点一下!

JusperLee commented 2 years ago

Noise-free reverberant speech场景下WER能达到9.1%,我重新仔细的看了一下论文,这个意思表示是未混合的两个目标语音的wer,也就是模型能够达到的wer的上界,而不是dprnn得到的结果。 至于上升慢,我在罗艺TAC数据集上也进行了测试上升的缺陷也是非常缓慢的,并没有无混响数据那么快,这是正常现象。 另外,补充一点,罗艺在文章中使用了16khz来测试wer而不是8khz,你可以试试8khz。

SouppuoS commented 2 years ago

感谢你的回复,我再尝试一下!