Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.75k stars 714 forks source link

克隆一个音色该如何微调哦 #234

Open liubin3702 opened 1 year ago

liubin3702 commented 1 year ago

目前这个项目只使用十句短语或者3分钟音频就可以训练一个音色嘛,该如何微调呢

Plachtaa commented 1 year ago

可以,但是建议勾辅助数据

laoyin commented 1 year ago

@Plachtaa 大佬,我发现我训练100个epochs, 没有克隆,发现音色是 女生的音色,这个应该怎么解决?

Plachtaa commented 1 year ago

@Plachtaa 大佬,我发现我训练100个epochs, 没有克隆,发现音色是 女生的音色,这个应该怎么解决?

请检查是否已选择正确的说话人(speaker)ID

laoyin commented 1 year ago

@Plachtaa 用的就是webui,选择的speaker ID, 应该不会错的,100个epochs,我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题,发音人数据量太少?目前20个文件,还是训练的epochs 不够?

Plachtaa commented 1 year ago

这是难以理解的。如果可以的话,可否分享训练完成的模型以及config,还有训练数据以供参考

liubin3702 commented 1 year ago

@Plachtaa 用的就是webui,选择的speaker ID, 应该不会错的,100个epochs,我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题,发音人数据量太少?目前20个文件,还是训练的epochs 不够?

20条音频是无法克隆出音色的 我实际操作要两百条才行

laoyin commented 1 year ago

这是难以理解的。如果可以的话,可否分享训练完成的模型以及config,还有训练数据以供参考

我先试试 @liubin3702 200条以上,然后看看我的操作哪里有误,如果还有问题,到时候再打扰您

yuhangch commented 1 year ago

我也是 20 条数据,出来一个很搞怪的音色,后面试试 200 个样本吧,话说大家都是怎么采的数据。 20 条我是从视频里找时间点写了个脚本扒拉的,200 个有点子崩溃,把长视频机械裁剪成 200 份,是不是没啥意义?