看到你用了 GST ，好奇一下 GST 的效果

yt605155624 commented 2 years ago

我理解使用 GST 和是否是多说话人无关对吧
训练的时候用了 GST，预测的时候一定也用是吗
比如我用 csmsc 训练了一个 fastspeech2_gst 的模型，在训练的时候，用我自己的声音作为 ref_audio，那么合成的音频就是具有我的音色和韵律等效果嘛
gst 和 voice clone 相比效果如何呢？（音色相似度等，voice clone 我理解应该是没有复刻韵律的作用的）

jerryuhoo commented 2 years ago

子龙老师好= =

我之前看mockingbird有用到GST，所以加了一下看看效果，想用于克隆说话的语气语调韵律。

是的，虽然我试的都是多人的模型，但是单人的模型应该也有效果的。
是的，训练预测都要用到，而且预测的时候动转静好像也会有点问题。好久之前遇到了，后来暂时没搞，应该还是存在问题的。
理论上是的，我自己之前试的效果是，如果说给的ref_audio的音调比较高，而说话人正常说话的时候音调比较低，那么合成出来的音调也会变高。
voice clone我好久之前试过PaddleSpeech的，我的印象是音色不是很相似，gst我感觉也不太行，因为对比发现VAE的效果更好，Learning latent representations for style control and transfer in end-to-end speech synthesis，好像还有一篇论文voice clone也是用VAE的忘了叫啥了，不过我自己还没试出来。我听论文的sample感觉是gst还是不能完全复刻语气，只是改变了一下说话的音高，但是我觉得VAE还原的很像。

yt605155624 commented 2 years ago

那我理解如果想要提高 voice clone 的效果，是不是也不用在声纹 spk emb 上做什么改进了，也不用尝试 gst 了，可以直接上 VAE

jerryuhoo commented 2 years ago

我觉得两个都要，VAE我觉得还是更侧重于对韵律的模仿，声纹还是要靠spk emb和SV模型吧

jerryuhoo commented 2 years ago

不过我也没试过，说不定可以只靠一个reference encoder类似的结构（VAE或者GST）来达成一步到位的voice clone，这方面的论文也看的不是很多，我就看了下gst和vae的几篇

jerryuhoo / VTuberTalk