Closed luyao-cv closed 9 months ago
有噪音音频的demo吗?可以对比下HuggingFace上面的效果
您说的是空白段有噪声吧,不是语音段?这个可以执行post处理消除,或者用uvr5处理一下。
这个是我训练的曲线
这是ft训练的,请问mel loss到4.0应该差不多吗?我目前训了16k, bs=32。
mel loss 平均值在0.45就差不多了,您有多少个训练音频呢?是基于预训练模型训练的吗?
我的dataset_raw有1071条数据,是切分成4-15秒的数据。对,基于预训练模型训的
我的dataset_raw有1071条数据,是切分成4-15秒的数据。对,基于预训练模型训的
如果数据没噪声的话,能训练出来的。(如果是男声的话,效果可能会差点)
好的,谢谢哈。有2个问题想请教一下。
半天可以得到一个比较好的效果么?主要看训练的epoch数量,500个epoch基本就可以了
请问有加入扩散模型么?感觉电音有点重
我這邊平時是使用三個版本的Sovits在做拼接,說一下心得 (4.1 vec768l12、5.0 bigvgan-mix-v2、5.0 with RMVPE)
4.1 最能還原要翻唱的語氣與情感 訓練集內沒有的最低音與最高音數據能推理的很好 並且能根據輸入源做響度匹配(跟原曲人聲同樣的音量) 不過如果訓練集與翻唱的歌手風格差異太大 模仿太多我覺得很突兀 使用Rmvpe推理沒有跑調的問題 抗混響、和聲、咬字最弱 跟5.0有些地方會有不一樣的聲音 我喜歡5.0比較多所以4.1都是修補用的
5.0 bigvgan-mix-v2 三個之中優先使用的版本,抗混響和聲以及咬字最強 能有跟要翻唱的歌手不一樣的語氣與情感表現 如果要翻唱的歌手與自身模型風格差異太大 這裡使用bigvgan-mix-v2我覺得佔優(純看個人喜好) 這個版本使用了crepe推理會有跑調的情況
5.0 with RMVPE 與bigvgan-mix-v2差不多 這版本主要是修正crepe的跑調 但我使用上都很不順 很容易有突出的異音 無法當作是最優先使用的版本 bigvgan-mix-v2有時候可以一次無修到底 5.0 Rmvpe不行 幾乎每句都會有突兀音
範例參考如下 【Aiobahn feat. KOTOKO《INTERNET YAMERO》AI Cover by 岩崎宏美】 https://www.bilibili.com/video/BV1YH4y1d7vU/?share_source=copy_web&vd_source=1a855607b0e7432ab1f93855e5b45f7d
講話的地方用4.1、唱歌與和聲地方用bigvgan-mix-v2+RMVPE
我用5.0 with crepe,容易跑调。用4.0的with Rmvpe挺好的,就是4.0的推理时哑音太重了,5.0不会出现哑音,但是会有断音。
预处理使用crepe提取音高,训练出的模型可能会有断音;用preprocess_f0_mouth.py或者自己集成rmpve做预处理。
感谢作者提供的代码和权重。用你的5.0版训练确实比官方给的训练的效果哑音基本没有了。但是会多出很多噪音不知道是为什么。