jerryuhoo / VTuberTalk

Apache License 2.0
366 stars 54 forks source link

看到你用了 GST ,好奇一下 GST 的效果 #6

Open yt605155624 opened 2 years ago

yt605155624 commented 2 years ago
  1. 我理解使用 GST 和是否是多说话人无关对吧
  2. 训练的时候用了 GST, 预测的时候一定也用是吗
  3. 比如我用 csmsc 训练了一个 fastspeech2_gst 的模型,在训练的时候,用我自己的声音作为 ref_audio,那么合成的音频就是具有我的音色和韵律等效果嘛
  4. gst 和 voice clone 相比效果如何呢?(音色相似度等,voice clone 我理解应该是没有复刻韵律的作用的)
jerryuhoo commented 2 years ago

子龙老师好= =

我之前看mockingbird有用到GST,所以加了一下看看效果,想用于克隆说话的语气语调韵律。

  1. 是的,虽然我试的都是多人的模型,但是单人的模型应该也有效果的。
  2. 是的,训练预测都要用到,而且预测的时候动转静好像也会有点问题。好久之前遇到了,后来暂时没搞,应该还是存在问题的。
  3. 理论上是的,我自己之前试的效果是,如果说给的ref_audio的音调比较高,而说话人正常说话的时候音调比较低,那么合成出来的音调也会变高。
  4. voice clone我好久之前试过PaddleSpeech的,我的印象是音色不是很相似,gst我感觉也不太行,因为对比发现VAE的效果更好,Learning latent representations for style control and transfer in end-to-end speech synthesis,好像还有一篇论文voice clone也是用VAE的忘了叫啥了,不过我自己还没试出来。我听论文的sample感觉是gst还是不能完全复刻语气,只是改变了一下说话的音高,但是我觉得VAE还原的很像。
yt605155624 commented 2 years ago

那我理解如果想要提高 voice clone 的效果,是不是也不用在声纹 spk emb 上做什么改进了,也不用尝试 gst 了,可以直接上 VAE

jerryuhoo commented 2 years ago

我觉得两个都要,VAE我觉得还是更侧重于对韵律的模仿,声纹还是要靠spk emb和SV模型吧

jerryuhoo commented 2 years ago

不过我也没试过,说不定可以只靠一个reference encoder类似的结构(VAE或者GST)来达成一步到位的voice clone,这方面的论文也看的不是很多,我就看了下gst和vae的几篇