发音不准问题 - Githubissues

Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion

Apache License 2.0

4.69k stars 705 forks source link

Open youxingtian opened 11 months ago

youxingtian commented 11 months ago

使用中文的C模型，中文训练语料为10个人音频数据，10个人音频加起来总共大概3个小时，训练5000epoch，发现有些文字发音还是不准，由于需要用在生产环境上，对发音的准确率要求很高，麻烦作者给指导一下。

mikeyang01 commented 11 months ago

使用中文的C模型，中文训练语料为10个人音频数据，10个人音频加起来总共大概3个小时，训练5000epoch，发现有些文字发音还是不准，由于需要用在生产环境上，对发音的准确率要求很高，麻烦作者给指导一下。

5000个epoch花了多久?

M4SAO commented 11 months ago

题主现在找到解决方案了吗

shirubei commented 10 months ago

感觉就是覆盖率不够啊拿标贝那种10000个句子的训练一下看看结果，如果还不行那估计是底模有些问题。

shirubei commented 6 months ago

突然想起来，楼主的语音文件里面不会是有多人同时在一个语音文件里面吧？