SayaSS / vits-finetuning

Fine-Tuning your VITS model using a pre-trained model
MIT License
546 stars 86 forks source link

关于训练出的模型效果的疑问 #4

Closed HarutoLiang closed 1 year ago

HarutoLiang commented 1 year ago

您好,我是从您的huggingface的项目vits-models的链接找过来的

您的圣园未花训练出的效果非常好,所以我尝试自己训练了一下其他角色的模型,用您在这里给到的colab的链接在线搭建的 我这边用了一个67条语音的训练集,8条语音的比照集 N}KGSFSEX8JS0BSL428X$~T 分别测试了训练500多代,800多代和1000多代的模型,成品的效果都和您放在huggingface上的未花效果相差很多

我发现您在huggingface上的模型文件.pth基本都是160MB左右的大小,但是我这边训练出的模型文件大小基本都和您给出的G_0.pth大小一致,是457MB左右 3MMO(15$1P$Z2I~0WYLK0$6

所以我想,是不是我的步骤出现了问题,另外,我这边只修改了您的模板中的train.txt和val.txt,并在wav文件夹中添加了我要训练的wav语音文件,但是我没有修改您的train.txt.cleaned和val.txt.cleaned,这两个文件中的音标我不知道要怎么处理,是不是这部分出了问题呢

希望您能指点一下

SayaSS commented 1 year ago

160MB大小的模型是删除了和推理无关的optimizer的模型,不影响推理效果哦。

效果相差很多,模型生成的语音能正常说话吗?如果不能的话可能是哪个步骤出了问题 还是指语调很奇怪?我看你训练集里的speaker id为1,推理时也需要指定speaker_id为1哦,不然会生成融合音色和语气的结果

train.txt.cleaned和val.txt.cleaned文件在运行了这步后

!python preprocess.py --filelists filelists/train.txt filelists/val.txt

是会自动处理的,基本不需要自行修改,只有某些专有名词和多音日语汉字可能需要手动修正下

HarutoLiang commented 1 year ago

能正常说话的,声线是可以听出是我放进去训练的人的声音,是语调很奇怪的问题 举个例子,我刚才拿了一个70多个字,9个分句的日文对话的台本测试,您的未花模型,基本每一句的语调都没有什么问题,我这个模型是有3个分句的语调有明显问题 您说的推理指定speakerid是val.txt里面的内容吗? ![DI6$ 5LYFO0G12Y`O%7$Q9](https://user-images.githubusercontent.com/26239143/219947283-c7801642-129b-4267-be8e-8625c1fae2cd.png) 我应该是也指定的为1

SayaSS commented 1 year ago

path/to/XXX.wav|speaker id|transcript 就是数据集格式中间的speaker id 使用colab notebook推理时的speaker id需要指定为和数据集一样的 QQ截图20230219202415

HarutoLiang commented 1 year ago

关于这一点,其实是这样的 出于尽量搭建一个和您一样的环境的考虑,我其实是把我训练出挂在google drive的G_xxxx.pth下载下来,然后复制了一份您在huggingface上的公开space(我的可见性设置为private),把我训练出的.pth替换了您的在线的其中一个角色的.pth,并在huggingface上测试的 我这边是替换了イオリ的.pth,您看会是这一步出现了问题吗?

SayaSS commented 1 year ago

huggingface上的space项目的话,需要修改 pretrained_models/info.json 中对应角色的 sid

具体如下:

"iori": {
    "name_en": "Shiromi Iori",
    "name_zh": "银镜伊织",
    "title": "Blue Archive-銀鏡イオリ",
    "cover": "cover.png",
    "sid": 10,
    "example": "今日はいい天気ですね。",
    "language": "Japanese",
    "type": "multi"
},

修改为

"iori": {
    "name_en": "Shiromi Iori",
    "name_zh": "银镜伊织",
    "title": "Blue Archive-銀鏡イオリ",
    "cover": "cover.png",
    "sid": 1,
    "example": "今日はいい天気ですね。",
    "language": "Japanese",
    "type": "multi"
},
HarutoLiang commented 1 year ago

我这边尝试了一下指定ID为1,在huggingface和colab上分别搭建,又尝试了一下指定ID为10,重新训练。结果和一开始是一样的…

然后我这边也综合测试了一下您在线的这些角色的效果,主要是做语调的对比,感觉有部分人,比如未花的效果比较好,其他人的效果也有不尽人意之处。 所以我想,可能还是训练集的限制吧

顺便说下未花的效果真的好好(小声)

SayaSS commented 1 year ago

好吧,辛苦了 (:зゝ∠)