Open TungyuYoung opened 3 months ago
亲爱的作者, 为了进一步缩小模型和降低计算量,我尝试了仅用 spec.abs() 和 spec.angle() 作为输入,最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗? Thanks!
你好! 事实上,模型的输入从两通道改为三通道,对整体计算量影响不大。并且考虑到相位的无结构性,我个人认为直接使用相位作为输入是对模型不友好的。可以考虑将输入的幅度部分改为压缩幅度或者对数幅度,实虚部保留,可能会有正面收益。
亲爱的作者, 为了进一步缩小模型和降低计算量,我尝试了仅用 spec.abs() 和 spec.angle() 作为输入,最终的增强频谱直接通过 spec*mask 得到。其余网络架构均不作改变。然而我发现这样做会导致生成的音频会丢失中高频的细节。请问您有尝试过不同的输入特征吗? Thanks!