Open bobo-wmdigit opened 1 year ago
说反了,像日本人说中文...而且含糊不清
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的
307
我已经改成了纯C作为预训练模型了,但是好像效果也并不好,我在想是不是要几个小时的数据才会比较合适,另外,我只有长音频,这个我还需要切割成短音频吗?
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的
那就重点看看final_annotation_train.txt 音标对不对了
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的
那就重点看看final_annotation_train.txt 音标对不对了
请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~
./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的
那就重点看看final_annotation_train.txt 音标对不对了
请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~
./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!
看short或long开头的那几个
训练集过少 or 声音质量不高,韵律不明显 or 转写停顿错误
应该不能,我网上找的中文演讲,最少听起来,还是挺不错的,不知道是不是我的方法有问题,我是按照local.md的说明步骤来的
那就重点看看final_annotation_train.txt 音标对不对了
请问这个要怎么看呢?我的是这样的一个东西。之前训练两个角色都正常,现在新角色按之前的方法训练,会出现带有口音或者完全扭曲的声音的问题,清除数据重新训练又好了,音频数据是没问题的。谢谢~
./sampled_audio4ft/0.wav|1|so↑ona n↓desɯ*kedo, ta↓no ɯ↑mamɯ↓sɯmesaNo mi↓ɾɯ no↑wa ha↑dʑi↓mete de↓Q!
看short或long开头的那几个
long_character_annon.txt中有些句子对应的音频太长(25s),请问有办法可以缩短吗?
求助,我这边利用一个19分钟的中文音频训练成功。但是tts推理出来的音频就像楼主所说的,很含混,听不出里面说的话。 原始19分钟的音频听起来很清晰。我看wisper的识别有一部分是繁体中文的,这个对吗?是需要检查final_annotation_train.txt 的注音吗?
实在不行就用 Audacity 自己切分为短音频
我用辅助素材里的音频训练的钟离说话音调也不太正确,不知道为什么
我的是这样,训练出来像日本人讲话
解决了,见 #501
求大佬指点