Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 705 forks source link

我训练出来的，为什么像是中国人在说日语，有人知道应该如何处理吗？ #444

Open bobo-wmdigit opened 1 year ago

bobo-wmdigit commented 1 year ago

求大佬指点

bobo-wmdigit commented 1 year ago

说反了，像日本人说中文...而且含糊不清

AnyaCoder commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

anfogy commented 1 year ago

307

bobo-wmdigit commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

应该不能，我网上找的中文演讲，最少听起来，还是挺不错的，不知道是不是我的方法有问题，我是按照local.md的说明步骤来的

bobo-wmdigit commented 1 year ago

307

我已经改成了纯C作为预训练模型了，但是好像效果也并不好，我在想是不是要几个小时的数据才会比较合适，另外，我只有长音频，这个我还需要切割成短音频吗？

AnyaCoder commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

应该不能，我网上找的中文演讲，最少听起来，还是挺不错的，不知道是不是我的方法有问题，我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

WellTung666 commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

应该不能，我网上找的中文演讲，最少听起来，还是挺不错的，不知道是不是我的方法有问题，我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢？我的是这样的一个东西。之前训练两个角色都正常，现在新角色按之前的方法训练，会出现带有口音或者完全扭曲的声音的问题，清除数据重新训练又好了，音频数据是没问题的。谢谢～ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

anfogy commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

应该不能，我网上找的中文演讲，最少听起来，还是挺不错的，不知道是不是我的方法有问题，我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢？我的是这样的一个东西。之前训练两个角色都正常，现在新角色按之前的方法训练，会出现带有口音或者完全扭曲的声音的问题，清除数据重新训练又好了，音频数据是没问题的。谢谢～ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

看short或long开头的那几个

WellTung666 commented 1 year ago

训练集过少 or 声音质量不高，韵律不明显 or 转写停顿错误

应该不能，我网上找的中文演讲，最少听起来，还是挺不错的，不知道是不是我的方法有问题，我是按照local.md的说明步骤来的

那就重点看看final_annotation_train.txt 音标对不对了

请问这个要怎么看呢？我的是这样的一个东西。之前训练两个角色都正常，现在新角色按之前的方法训练，会出现带有口音或者完全扭曲的声音的问题，清除数据重新训练又好了，音频数据是没问题的。谢谢～ ./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!

看short或long开头的那几个

long_character_annon.txt中有些句子对应的音频太长（25s），请问有办法可以缩短吗？

ThornbirdZhang commented 12 months ago

求助，我这边利用一个19分钟的中文音频训练成功。但是tts推理出来的音频就像楼主所说的，很含混，听不出里面说的话。原始19分钟的音频听起来很清晰。我看wisper的识别有一部分是繁体中文的，这个对吗？是需要检查final_annotation_train.txt 的注音吗？

shirubei commented 12 months ago

实在不行就用 Audacity 自己切分为短音频

wmlgl commented 11 months ago

我用辅助素材里的音频训练的钟离说话音调也不太正确，不知道为什么

toxwin commented 10 months ago

我的是这样，训练出来像日本人讲话

shirubei commented 10 months ago

解决了，见 #501