Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 705 forks source link

发音不准问题 #461

Open youxingtian opened 11 months ago

youxingtian commented 11 months ago

使用中文的C模型,中文训练语料为10个人音频数据,10个人音频加起来总共大概3个小时,训练5000epoch,发现有些文字发音还是不准,由于需要用在生产环境上,对发音的准确率要求很高,麻烦作者给指导一下。

mikeyang01 commented 11 months ago

使用中文的C模型,中文训练语料为10个人音频数据,10个人音频加起来总共大概3个小时,训练5000epoch,发现有些文字发音还是不准,由于需要用在生产环境上,对发音的准确率要求很高,麻烦作者给指导一下。

5000个epoch花了多久?

M4SAO commented 11 months ago

题主现在找到解决方案了吗

shirubei commented 10 months ago

感觉就是覆盖率不够啊 拿标贝那种10000个句子的训练一下看看结果,如果还不行那估计是底模有些问题。

shirubei commented 6 months ago

突然想起来,楼主的语音文件里面不会是有多人同时在一个语音文件里面吧?