Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 705 forks source link

我训练出来的,为什么像是中国人在说日语,有人知道应该如何处理吗? #444

Open bobo-wmdigit opened 1 year ago

bobo-wmdigit commented 1 year ago

求大佬指点

bobo-wmdigit commented 1 year ago

说反了,像日本人说中文...而且含糊不清

AnyaCoder commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

anfogy commented 1 year ago

307

bobo-wmdigit commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的

bobo-wmdigit commented 1 year ago

307

我已经改成了纯C作为预训练模型了,但是好像效果也并不好,我在想是不是要几个小时的数据才会比较合适,另外,我只有长音频,这个我还需要切割成短音频吗?

AnyaCoder commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

WellTung666 commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

anfogy commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

看short或long开头的那几个

WellTung666 commented 1 year ago

训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误

应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

看short或long开头的那几个

long_character_annon.txt中有些句子对应的音频太长(25s),请问有办法可以缩短吗?

ThornbirdZhang commented 12 months ago

求助,我这边利用一个19分钟的中文音频训练成功。但是tts推理出来的音频就像楼主所说的,很含混,听不出里面说的话。 原始19分钟的音频听起来很清晰。我看wisper的识别有一部分是繁体中文的,这个对吗?是需要检查final_annotation_train.txt 的注音吗?

shirubei commented 12 months ago

实在不行就用 Audacity 自己切分为短音频

wmlgl commented 11 months ago

我用辅助素材里的音频训练的钟离说话音调也不太正确,不知道为什么

toxwin commented 10 months ago

我的是这样,训练出来像日本人讲话

shirubei commented 10 months ago

解决了,见 #501