auspicious3000 / SpeechSplit

Unsupervised Speech Decomposition Via Triple Information Bottleneck
http://arxiv.org/abs/2004.11284
MIT License
636 stars 92 forks source link

音色迁移的问题 #75

Open IndowK opened 1 year ago

IndowK commented 1 year ago

作者您好,我选择了vctk数据集中p225到p246共二十个说话人的语音进行训练(包括有p226和p231),模型迭代到十万次左右损失不再下降(31左右),但是使用模型时,我发现仅有音高和韵律进行了转换,而音色没有变化,且转换音色生成的语音质量很差。我继续迭代到二十万次,损失没有下降,效果与迭代十万次的相同,仅有韵律和音高有转换,音色转换效果很差。我想知道这可能是为什么?我应该继续训练迭代到六十多万次吗?

auspicious3000 commented 1 year ago

可能是需要调bottleneck吧,虽然都是vctk,但选择的训练数据不一样还是有可能需要调bottleneck的

IndowK commented 1 year ago

我的代码基础比较弱,我想请问一下,调节bottleneck的参数是指调节hparams.py中的 dim_neck, dim_neck_2, dim_neck_3吗?

IndowK commented 1 year ago

我还有一个猜测,是不是我没有将speakerID加进来? image

auspicious3000 commented 1 year ago

speaker id 是要加的