Closed Morning4Star closed 4 months ago
学长,我有个问题,num_groups_in_drop_band要是不为1,输出的掩膜维度的F不就变了嘛,后续还原语音的时候,就和原来的幅度谱大小对不上了
这是FullSubNet原来的代码里面用来训练加速的一个方法,在训练的时候,target和模型内部都会dropband,而在inference的时候就是正常的inference(因为每个subband units相当于是被模型视作了batch,不影响模型的输入输出维度)
学长,我有个问题,num_groups_in_drop_band要是不为1,输出的掩膜维度的F不就变了嘛,后续还原语音的时候,就和原来的幅度谱大小对不上了