关于训练出的模型效果的疑问

HarutoLiang commented 1 year ago

您好，我是从您的huggingface的项目vits-models的链接找过来的

您的圣园未花训练出的效果非常好，所以我尝试自己训练了一下其他角色的模型，用您在这里给到的colab的链接在线搭建的我这边用了一个67条语音的训练集，8条语音的比照集 N}KGSFSEX8JS0BSL428X$~T 分别测试了训练500多代，800多代和1000多代的模型，成品的效果都和您放在huggingface上的未花效果相差很多

我发现您在huggingface上的模型文件.pth基本都是160MB左右的大小，但是我这边训练出的模型文件大小基本都和您给出的G_0.pth大小一致，是457MB左右 3MMO(15$1P$Z2I~0WYLK0$6

所以我想，是不是我的步骤出现了问题，另外，我这边只修改了您的模板中的train.txt和val.txt，并在wav文件夹中添加了我要训练的wav语音文件，但是我没有修改您的train.txt.cleaned和val.txt.cleaned，这两个文件中的音标我不知道要怎么处理，是不是这部分出了问题呢

希望您能指点一下

SayaSS commented 1 year ago

160MB大小的模型是删除了和推理无关的optimizer的模型，不影响推理效果哦。

效果相差很多，模型生成的语音能正常说话吗？如果不能的话可能是哪个步骤出了问题还是指语调很奇怪？我看你训练集里的speaker id为1，推理时也需要指定speaker_id为1哦，不然会生成融合音色和语气的结果

train.txt.cleaned和val.txt.cleaned文件在运行了这步后

!python preprocess.py --filelists filelists/train.txt filelists/val.txt

是会自动处理的，基本不需要自行修改，只有某些专有名词和多音日语汉字可能需要手动修正下

HarutoLiang commented 1 year ago

能正常说话的，声线是可以听出是我放进去训练的人的声音，是语调很奇怪的问题举个例子，我刚才拿了一个70多个字，9个分句的日文对话的台本测试，您的未花模型，基本每一句的语调都没有什么问题，我这个模型是有3个分句的语调有明显问题您说的推理指定speakerid是val.txt里面的内容吗？ ![DI6$ 5LYFO0G12Y`O%7$Q9](https://user-images.githubusercontent.com/26239143/219947283-c7801642-129b-4267-be8e-8625c1fae2cd.png) 我应该是也指定的为1

SayaSS commented 1 year ago

path/to/XXX.wav|speaker id|transcript 就是数据集格式中间的speaker id 使用colab notebook推理时的speaker id需要指定为和数据集一样的 QQ截图20230219202415

HarutoLiang commented 1 year ago

关于这一点，其实是这样的出于尽量搭建一个和您一样的环境的考虑，我其实是把我训练出挂在google drive的G_xxxx.pth下载下来，然后复制了一份您在huggingface上的公开space(我的可见性设置为private)，把我训练出的.pth替换了您的在线的其中一个角色的.pth，并在huggingface上测试的我这边是替换了イオリ的.pth，您看会是这一步出现了问题吗？

SayaSS commented 1 year ago

huggingface上的space项目的话，需要修改 pretrained_models/info.json 中对应角色的 sid

具体如下：

"iori": {
    "name_en": "Shiromi Iori",
    "name_zh": "银镜伊织",
    "title": "Blue Archive-銀鏡イオリ",
    "cover": "cover.png",
    "sid": 10,
    "example": "今日はいい天気ですね。",
    "language": "Japanese",
    "type": "multi"
},

修改为

"iori": {
    "name_en": "Shiromi Iori",
    "name_zh": "银镜伊织",
    "title": "Blue Archive-銀鏡イオリ",
    "cover": "cover.png",
    "sid": 1,
    "example": "今日はいい天気ですね。",
    "language": "Japanese",
    "type": "multi"
},

HarutoLiang commented 1 year ago

我这边尝试了一下指定ID为1，在huggingface和colab上分别搭建，又尝试了一下指定ID为10，重新训练。结果和一开始是一样的…

然后我这边也综合测试了一下您在线的这些角色的效果，主要是做语调的对比，感觉有部分人，比如未花的效果比较好，其他人的效果也有不尽人意之处。所以我想，可能还是训练集的限制吧

顺便说下未花的效果真的好好（小声）

SayaSS commented 1 year ago

好吧，辛苦了 (:зゝ∠)

SayaSS / vits-finetuning

关于训练出的模型效果的疑问 #4

具体如下：