Plachtaa / VITS-fast-fine-tuning

This repo is a pipeline of VITS finetuning for fast speaker adaptation TTS, and many-to-many voice conversion
Apache License 2.0
4.69k stars 705 forks source link

长句读音含糊,短句清晰 #480

Closed rockbenben closed 11 months ago

rockbenben commented 11 months ago

用 CJE 模型和 400 段中文短音频进行 1000 次训练后,短句听起来蛮清晰的了,但长句发音依然很含糊。

例如,在 样例.zip 文件中,短句「这是一款入门很难,精通更难的游戏,但精通之后可以花式虐电脑。」的生成语音时长为 6 秒,相对清晰。但当将两个相同的短句重复形成长句时,生成的语音时长仅为 9 秒,发音特别含糊。

我打算继续训练至 5000 次,观察长句的发音清晰度是否会有所改善。大家有没有其他的建议能改善长句的发音问题?

rockbenben commented 11 months ago

经过5000次训练后,效果仍然没有改善。我猜我可能过度修改了语料文本,一些语音并没有被Whisper识别,但我已经做了标注。

准备重新检查,重新录音