Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.
MIT License
217 stars 37 forks source link

关于输入特征会导致性能下降的问题 #27

Open TungyuYoung opened 3 months ago

TungyuYoung commented 3 months ago

亲爱的作者, 为了进一步缩小模型和降低计算量,我尝试了仅用 spec.abs() 和 spec.angle() 作为输入,最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗? Thanks!

Xiaobin-Rong commented 3 months ago

你好! 事实上,模型的输入从两通道改为三通道,对整体计算量影响不大。并且考虑到相位的无结构性,我个人认为直接使用相位作为输入是对模型不友好的。可以考虑将输入的幅度部分改为压缩幅度或者对数幅度,实虚部保留,可能会有正面收益。