JusperLee / Deep-Clustering-for-Speech-Separation

Pytorch implements Deep Clustering: Discriminative Embeddings For Segmentation And Separation
124 stars 25 forks source link

想问问最后效果 #19

Open AIHHU opened 2 years ago

AIHHU commented 2 years ago

请问李学长您整个最终效果如何呢?

JusperLee commented 2 years ago

效果不是很好,和论文里报告的差不多,如果你想追求sota可以看看别的,因为这个已经很老了

huanghonggit commented 2 years ago

您好,请问想用语音自己训练多targets 混音embedding,目前用您的代码训练了一个DC模型,但获得的embedding效果不是很理想。 请问您训练完损失大概是多少,该怎么评估这个embedding的效果勒?另外请问您除了DC,您还有什么别的方法推荐吗?

huanghonggit commented 2 years ago

@JusperLee

JusperLee commented 2 years ago

你可以直接把他用作分离,求分离的结果即可。因为train loss是embedding之间的差距,loss会比较大。 如果是语音分离任务可以看看:Conv-TasNet和DPRNN

huanghonggit commented 2 years ago

好的,非常感谢您的及时回答

AIHHU commented 2 years ago

@huanghonggit 这个dc做纯净语音分离还可以,但是一旦混合了噪声,把噪声再单独分离出来,是不行的

AIHHU commented 2 years ago

之前尝试用paddle去复现过,想作带噪声的分离,这个方法思想上和二值掩膜是差不多得,带了噪声以后两个人声的频谱图就连通了,所以很难分离

huanghonggit commented 2 years ago

@AIHHU 我这边其实就是想要用DC获取混音的时频 embedding,比如输入是4个人混音,label是四个人,想拿到混音的embedding; 不是用DC做分离...当然要是分离效果好说明embedding训练的也好

dengyx99 commented 1 year ago

之前尝试用paddle去复现过,想作带噪声的分离,这个方法思想上和二值掩膜是差不多得,带了噪声以后两个人声的频谱图就连通了,所以很难分离

您好,这个没有办法做分离是什么原因呢?感觉效果确实不太好,但是不太理解这个频谱图连通,具体是什么意思呢?