Open liubin3702 opened 1 year ago
可以,但是建议勾辅助数据
@Plachtaa 大佬,我发现我训练100个epochs, 没有克隆,发现音色是 女生的音色,这个应该怎么解决?
@Plachtaa 大佬,我发现我训练100个epochs, 没有克隆,发现音色是 女生的音色,这个应该怎么解决?
请检查是否已选择正确的说话人(speaker)ID
@Plachtaa 用的就是webui,选择的speaker ID, 应该不会错的,100个epochs,我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题,发音人数据量太少?目前20个文件,还是训练的epochs 不够?
这是难以理解的。如果可以的话,可否分享训练完成的模型以及config,还有训练数据以供参考
@Plachtaa 用的就是webui,选择的speaker ID, 应该不会错的,100个epochs,我看issue里面也有人反馈类似的问题。https://github.com/Plachtaa/VITS-fast-fine-tuning/issues/202#issuecomment-1519068216 暂时不知道是哪里问题,发音人数据量太少?目前20个文件,还是训练的epochs 不够?
20条音频是无法克隆出音色的 我实际操作要两百条才行
这是难以理解的。如果可以的话,可否分享训练完成的模型以及config,还有训练数据以供参考
我先试试 @liubin3702 200条以上,然后看看我的操作哪里有误,如果还有问题,到时候再打扰您
我也是 20 条数据,出来一个很搞怪的音色,后面试试 200 个样本吧,话说大家都是怎么采的数据。 20 条我是从视频里找时间点写了个脚本扒拉的,200 个有点子崩溃,把长视频机械裁剪成 200 份,是不是没啥意义?
目前这个项目只使用十句短语或者3分钟音频就可以训练一个音色嘛,该如何微调呢