PlayVoice / whisper-vits-svc

Core Engine of Singing Voice Conversion & Singing Voice Clone
https://huggingface.co/spaces/maxmax20160403/sovits5.0
MIT License
2.63k stars 921 forks source link

说话人音色做歌曲转换的问题 #116

Closed elissopp closed 1 year ago

elissopp commented 1 year ago

您好~我最近想要做一些说话人只有语音,用其音色来转换成歌曲的任务(感觉b站上各类提取动漫/游戏角色的音频,来唱歌应该是同一种)。目前我将说话人语音和大量歌声数据混合训练(5h语音+90h歌曲),再用说话人音色对训练集见过的歌曲进行转换,遇到了几个问题,想咨询讨论一下~

  1. 直接混合训练和先用这些歌手数据预训练,再用语音数据finetune这两种方法有什么优劣定论嘛,目前大部分作品应该属于哪一种呢
  2. 此类任务是不是说话人语音的pitch跨度越大越好?同时训练时发现,女说话人转换歌声的效果远好于男声,这种情况是否正常呢

谢谢

MaxMax2016 commented 1 year ago
  1. 直接混合训练和先用这些歌手数据预训练,再用语音数据finetune这两种方法有什么优劣定论嘛,目前大部分作品应该属于哪一种呢

属于第二种finetune;优劣,没有对比过,大部份人只能使用这种方式,没有选择。

  1. 此类任务是不是说话人语音的pitch跨度越大越好?同时训练时发现,女说话人转换歌声的效果远好于男声,这种情况是否正常呢

pitch跨度越大越好,是的;正常,大家都这样,男声更难训练,语音合成任务里面也是这样。

elissopp commented 1 year ago

好滴谢谢~