Open yt605155624 opened 2 years ago
子龙老师好= =
我之前看mockingbird有用到GST,所以加了一下看看效果,想用于克隆说话的语气语调韵律。
那我理解如果想要提高 voice clone 的效果,是不是也不用在声纹 spk emb 上做什么改进了,也不用尝试 gst 了,可以直接上 VAE
我觉得两个都要,VAE我觉得还是更侧重于对韵律的模仿,声纹还是要靠spk emb和SV模型吧
不过我也没试过,说不定可以只靠一个reference encoder类似的结构(VAE或者GST)来达成一步到位的voice clone,这方面的论文也看的不是很多,我就看了下gst和vae的几篇