想问问最后效果 - Githubissues

JusperLee / Deep-Clustering-for-Speech-Separation

Pytorch implements Deep Clustering: Discriminative Embeddings For Segmentation And Separation

124 stars 25 forks source link

Open AIHHU opened 2 years ago

AIHHU commented 2 years ago

请问李学长您整个最终效果如何呢？

JusperLee commented 2 years ago

效果不是很好，和论文里报告的差不多，如果你想追求sota可以看看别的，因为这个已经很老了

huanghonggit commented 2 years ago

您好，请问想用语音自己训练多targets 混音embedding，目前用您的代码训练了一个DC模型，但获得的embedding效果不是很理想。请问您训练完损失大概是多少，该怎么评估这个embedding的效果勒？另外请问您除了DC，您还有什么别的方法推荐吗？

huanghonggit commented 2 years ago

@JusperLee

JusperLee commented 2 years ago

你可以直接把他用作分离，求分离的结果即可。因为train loss是embedding之间的差距，loss会比较大。如果是语音分离任务可以看看：Conv-TasNet和DPRNN

huanghonggit commented 2 years ago

好的，非常感谢您的及时回答

AIHHU commented 2 years ago

@huanghonggit 这个dc做纯净语音分离还可以，但是一旦混合了噪声，把噪声再单独分离出来，是不行的

AIHHU commented 2 years ago

之前尝试用paddle去复现过，想作带噪声的分离，这个方法思想上和二值掩膜是差不多得，带了噪声以后两个人声的频谱图就连通了，所以很难分离

huanghonggit commented 2 years ago

@AIHHU 我这边其实就是想要用DC获取混音的时频 embedding，比如输入是4个人混音，label是四个人，想拿到混音的embedding；不是用DC做分离...当然要是分离效果好说明embedding训练的也好

dengyx99 commented 1 year ago

之前尝试用paddle去复现过，想作带噪声的分离，这个方法思想上和二值掩膜是差不多得，带了噪声以后两个人声的频谱图就连通了，所以很难分离

您好，这个没有办法做分离是什么原因呢？感觉效果确实不太好，但是不太理解这个频谱图连通，具体是什么意思呢？