说话人音色做歌曲转换的问题 - Githubissues

PlayVoice / whisper-vits-svc

Core Engine of Singing Voice Conversion & Singing Voice Clone

https://huggingface.co/spaces/maxmax20160403/sovits5.0

MIT License

2.63k stars 921 forks source link

说话人音色做歌曲转换的问题 #116

Closed elissopp closed 1 year ago

elissopp commented 1 year ago

您好～我最近想要做一些说话人只有语音，用其音色来转换成歌曲的任务（感觉b站上各类提取动漫/游戏角色的音频，来唱歌应该是同一种）。目前我将说话人语音和大量歌声数据混合训练（5h语音+90h歌曲），再用说话人音色对训练集见过的歌曲进行转换，遇到了几个问题，想咨询讨论一下～

直接混合训练和先用这些歌手数据预训练，再用语音数据finetune这两种方法有什么优劣定论嘛，目前大部分作品应该属于哪一种呢
此类任务是不是说话人语音的pitch跨度越大越好？同时训练时发现，女说话人转换歌声的效果远好于男声，这种情况是否正常呢

谢谢

MaxMax2016 commented 1 year ago

直接混合训练和先用这些歌手数据预训练，再用语音数据finetune这两种方法有什么优劣定论嘛，目前大部分作品应该属于哪一种呢

属于第二种finetune；优劣，没有对比过，大部份人只能使用这种方式，没有选择。

此类任务是不是说话人语音的pitch跨度越大越好？同时训练时发现，女说话人转换歌声的效果远好于男声，这种情况是否正常呢

pitch跨度越大越好，是的；正常，大家都这样，男声更难训练，语音合成任务里面也是这样。

elissopp commented 1 year ago

好滴谢谢～