关于输入特征会导致性能下降的问题

Xiaobin-Rong / gtcrn

The official implementation of GTCRN, an ultra-lite speech enhancement model.

MIT License

217 stars 37 forks source link

Open TungyuYoung opened 3 months ago

TungyuYoung commented 3 months ago

亲爱的作者, 为了进一步缩小模型和降低计算量，我尝试了仅用 spec.abs() 和 spec.angle() 作为输入，最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗？ Thanks!

Xiaobin-Rong commented 3 months ago

你好！事实上，模型的输入从两通道改为三通道，对整体计算量影响不大。并且考虑到相位的无结构性，我个人认为直接使用相位作为输入是对模型不友好的。可以考虑将输入的幅度部分改为压缩幅度或者对数幅度，实虚部保留，可能会有正面收益。