PlayVoice / whisper-vits-svc

Core Engine of Singing Voice Conversion & Singing Voice Clone
https://huggingface.co/spaces/maxmax20160403/sovits5.0
MIT License
2.57k stars 914 forks source link

效果对比 #121

Closed luyao-cv closed 9 months ago

luyao-cv commented 9 months ago

感谢作者提供的代码和权重。用你的5.0版训练确实比官方给的训练的效果哑音基本没有了。但是会多出很多噪音不知道是为什么。

MaxMax2016 commented 9 months ago

有噪音音频的demo吗?可以对比下HuggingFace上面的效果

MaxMax2016 commented 9 months ago

您说的是空白段有噪声吧,不是语音段?这个可以执行post处理消除,或者用uvr5处理一下。

luyao-cv commented 9 months ago

fe6891f92cc3cac0f8ff939830d6e1aa

这个是我训练的曲线

luyao-cv commented 9 months ago

这是ft训练的,请问mel loss到4.0应该差不多吗?我目前训了16k, bs=32。

MaxMax2016 commented 9 months ago

mel loss 平均值在0.45就差不多了,您有多少个训练音频呢?是基于预训练模型训练的吗?

luyao-cv commented 9 months ago

我的dataset_raw有1071条数据,是切分成4-15秒的数据。对,基于预训练模型训的

MaxMax2016 commented 9 months ago

我的dataset_raw有1071条数据,是切分成4-15秒的数据。对,基于预训练模型训的

如果数据没噪声的话,能训练出来的。(如果是男声的话,效果可能会差点)

luyao-cv commented 9 months ago

好的,谢谢哈。有2个问题想请教一下。

  1. 官网4.0版的不知道你是否有对比过呢?同样的数据,也是用whisper ppg encoder,加载了底模,但是有很重的哑音。
  2. 训练自己的声音,我准备了30分钟的歌声,切分完后只有20分钟,训的效果非常差(用的官网4.0版的训了14小时)。一般来说半小时的数据,160条的样子。用2张v100训练,用您提供的5.0版训半天可以得到一个比较好的效果么?
MaxMax2016 commented 9 months ago

半天可以得到一个比较好的效果么?主要看训练的epoch数量,500个epoch基本就可以了

luyao-cv commented 9 months ago

请问有加入扩散模型么?感觉电音有点重

Taiwan1912 commented 9 months ago

我這邊平時是使用三個版本的Sovits在做拼接,說一下心得 (4.1 vec768l12、5.0 bigvgan-mix-v2、5.0 with RMVPE)

4.1 最能還原要翻唱的語氣與情感 訓練集內沒有的最低音與最高音數據能推理的很好 並且能根據輸入源做響度匹配(跟原曲人聲同樣的音量) 不過如果訓練集與翻唱的歌手風格差異太大 模仿太多我覺得很突兀 使用Rmvpe推理沒有跑調的問題 抗混響、和聲、咬字最弱 跟5.0有些地方會有不一樣的聲音 我喜歡5.0比較多所以4.1都是修補用的

5.0 bigvgan-mix-v2 三個之中優先使用的版本,抗混響和聲以及咬字最強 能有跟要翻唱的歌手不一樣的語氣與情感表現 如果要翻唱的歌手與自身模型風格差異太大 這裡使用bigvgan-mix-v2我覺得佔優(純看個人喜好) 這個版本使用了crepe推理會有跑調的情況

5.0 with RMVPE 與bigvgan-mix-v2差不多 這版本主要是修正crepe的跑調 但我使用上都很不順 很容易有突出的異音 無法當作是最優先使用的版本 bigvgan-mix-v2有時候可以一次無修到底 5.0 Rmvpe不行 幾乎每句都會有突兀音

範例參考如下 【Aiobahn feat. KOTOKO《INTERNET YAMERO》AI Cover by 岩崎宏美】 https://www.bilibili.com/video/BV1YH4y1d7vU/?share_source=copy_web&vd_source=1a855607b0e7432ab1f93855e5b45f7d

講話的地方用4.1、唱歌與和聲地方用bigvgan-mix-v2+RMVPE

luyao-cv commented 9 months ago

我用5.0 with crepe,容易跑调。用4.0的with Rmvpe挺好的,就是4.0的推理时哑音太重了,5.0不会出现哑音,但是会有断音。

MaxMax2016 commented 9 months ago

预处理使用crepe提取音高,训练出的模型可能会有断音;用preprocess_f0_mouth.py或者自己集成rmpve做预处理。