效果对比 - Githubissues

luyao-cv commented 9 months ago

感谢作者提供的代码和权重。用你的5.0版训练确实比官方给的训练的效果哑音基本没有了。但是会多出很多噪音不知道是为什么。

MaxMax2016 commented 9 months ago

有噪音音频的demo吗？可以对比下HuggingFace上面的效果

MaxMax2016 commented 9 months ago

您说的是空白段有噪声吧，不是语音段？这个可以执行post处理消除，或者用uvr5处理一下。

luyao-cv commented 9 months ago

fe6891f92cc3cac0f8ff939830d6e1aa

这个是我训练的曲线

luyao-cv commented 9 months ago

这是ft训练的，请问mel loss到4.0应该差不多吗？我目前训了16k, bs=32。

MaxMax2016 commented 9 months ago

mel loss 平均值在0.45就差不多了，您有多少个训练音频呢？是基于预训练模型训练的吗？

luyao-cv commented 9 months ago

我的dataset_raw有1071条数据，是切分成4-15秒的数据。对，基于预训练模型训的

MaxMax2016 commented 9 months ago

我的dataset_raw有1071条数据，是切分成4-15秒的数据。对，基于预训练模型训的

如果数据没噪声的话，能训练出来的。（如果是男声的话，效果可能会差点）

luyao-cv commented 9 months ago

好的，谢谢哈。有2个问题想请教一下。

官网4.0版的不知道你是否有对比过呢？同样的数据，也是用whisper ppg encoder，加载了底模，但是有很重的哑音。
训练自己的声音，我准备了30分钟的歌声，切分完后只有20分钟，训的效果非常差（用的官网4.0版的训了14小时）。一般来说半小时的数据，160条的样子。用2张v100训练，用您提供的5.0版训半天可以得到一个比较好的效果么？

MaxMax2016 commented 9 months ago

半天可以得到一个比较好的效果么？主要看训练的epoch数量，500个epoch基本就可以了

luyao-cv commented 9 months ago

请问有加入扩散模型么？感觉电音有点重

Taiwan1912 commented 9 months ago

我這邊平時是使用三個版本的Sovits在做拼接，說一下心得 (4.1 vec768l12、5.0 bigvgan-mix-v2、5.0 with RMVPE)

4.1 最能還原要翻唱的語氣與情感訓練集內沒有的最低音與最高音數據能推理的很好並且能根據輸入源做響度匹配(跟原曲人聲同樣的音量) 不過如果訓練集與翻唱的歌手風格差異太大模仿太多我覺得很突兀使用Rmvpe推理沒有跑調的問題抗混響、和聲、咬字最弱跟5.0有些地方會有不一樣的聲音我喜歡5.0比較多所以4.1都是修補用的

5.0 bigvgan-mix-v2 三個之中優先使用的版本，抗混響和聲以及咬字最強能有跟要翻唱的歌手不一樣的語氣與情感表現如果要翻唱的歌手與自身模型風格差異太大這裡使用bigvgan-mix-v2我覺得佔優(純看個人喜好) 這個版本使用了crepe推理會有跑調的情況

5.0 with RMVPE 與bigvgan-mix-v2差不多這版本主要是修正crepe的跑調但我使用上都很不順很容易有突出的異音無法當作是最優先使用的版本 bigvgan-mix-v2有時候可以一次無修到底 5.0 Rmvpe不行幾乎每句都會有突兀音

範例參考如下【Aiobahn feat. KOTOKO《INTERNET YAMERO》AI Cover by 岩崎宏美】 https://www.bilibili.com/video/BV1YH4y1d7vU/?share_source=copy_web&vd_source=1a855607b0e7432ab1f93855e5b45f7d

講話的地方用4.1、唱歌與和聲地方用bigvgan-mix-v2+RMVPE

luyao-cv commented 9 months ago

我用5.0 with crepe，容易跑调。用4.0的with Rmvpe挺好的，就是4.0的推理时哑音太重了，5.0不会出现哑音，但是会有断音。

MaxMax2016 commented 9 months ago

预处理使用crepe提取音高，训练出的模型可能会有断音；用preprocess_f0_mouth.py或者自己集成rmpve做预处理。

PlayVoice / whisper-vits-svc

效果对比 #121