克隆一个音色该如何微调哦

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.75k stars 714 forks source link

克隆一个音色该如何微调哦 #234

Open liubin3702 opened 1 year ago

liubin3702 commented 1 year ago

目前这个项目只使用十句短语或者3分钟音频就可以训练一个音色嘛，该如何微调呢

Plachtaa commented 1 year ago

可以，但是建议勾辅助数据

laoyin commented 1 year ago

@Plachtaa 大佬，我发现我训练100个epochs，没有克隆，发现音色是女生的音色，这个应该怎么解决？

Plachtaa commented 1 year ago

@Plachtaa 大佬，我发现我训练100个epochs，没有克隆，发现音色是女生的音色，这个应该怎么解决？

请检查是否已选择正确的说话人（speaker）ID

laoyin commented 1 year ago

@Plachtaa 用的就是webui，选择的speaker ID, 应该不会错的，100个epochs，我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题，发音人数据量太少？目前20个文件，还是训练的epochs 不够？

Plachtaa commented 1 year ago

这是难以理解的。如果可以的话，可否分享训练完成的模型以及config，还有训练数据以供参考

liubin3702 commented 1 year ago

@Plachtaa 用的就是webui，选择的speaker ID, 应该不会错的，100个epochs，我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题，发音人数据量太少？目前20个文件，还是训练的epochs 不够？

20条音频是无法克隆出音色的我实际操作要两百条才行

laoyin commented 1 year ago

这是难以理解的。如果可以的话，可否分享训练完成的模型以及config，还有训练数据以供参考

我先试试 @liubin3702 200条以上，然后看看我的操作哪里有误，如果还有问题，到时候再打扰您

yuhangch commented 1 year ago

我也是 20 条数据，出来一个很搞怪的音色，后面试试 200 个样本吧，话说大家都是怎么采的数据。 20 条我是从视频里找时间点写了个脚本扒拉的，200 个有点子崩溃，把长视频机械裁剪成 200 份，是不是没啥意义？